1月29日消息,百川智能發(fā)布超千億參數(shù)的大語言模型Baichuan 3。據(jù)介紹,Baichuan 3取得了系列新突破。
其中基礎(chǔ)能力方面,Baichuan 3在CMMLU、GAOKAO和AGI-Eval多個(gè)權(quán)威通用能力評(píng)測(cè)中都表現(xiàn)出色,尤其在中文任務(wù)上更是超越了GPT-4。在數(shù)學(xué)和代碼專項(xiàng)評(píng)測(cè)如MATH、HumanEval和MBPP中Baichuan 3同樣表現(xiàn)出色。
值得注意的是,百川智能對(duì)Baichuan 3在醫(yī)療領(lǐng)域的能力進(jìn)行了針對(duì)性優(yōu)化,在對(duì)邏輯推理能力及專業(yè)性要求極高的MCMLE、MedExam、CMExam等權(quán)威醫(yī)療評(píng)測(cè)上的中文效果同樣超過了GPT-4,成為中文醫(yī)療任務(wù)表現(xiàn)最佳的大模型。
另外,Baichuan 3還突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),進(jìn)一步提升了語義理解和生成能力,在詩詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)優(yōu)異,領(lǐng)先于其他大模型。
中文任務(wù)成績(jī)超越GPT-4
Baichuan 3在多個(gè)英文評(píng)測(cè)中表現(xiàn)出色,達(dá)到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多個(gè)中文評(píng)測(cè)榜單上,更是超越GPT-4展現(xiàn)了其在中文任務(wù)上的優(yōu)勢(shì)。
此外,在MT-Bench、IFEval等對(duì)齊榜單的評(píng)測(cè)中,Baichuan 3超越了GPT-3.5、Claude等大模型,處于行業(yè)領(lǐng)先水平。
據(jù)介紹,百川智能在訓(xùn)練過程中針對(duì)性地提出了“動(dòng)態(tài)數(shù)據(jù)選擇”、“重要度保持”以及“異步CheckPoint存儲(chǔ)”等多種創(chuàng)新技術(shù)手段及方案,有效提升了Baicuan 3的各項(xiàng)能力。訓(xùn)練效率方面, Baichuan 3的訓(xùn)練框架在性能方面相比業(yè)界主流框架提升超過30%。
醫(yī)療能力逼近GPT-4
在醫(yī)療領(lǐng)域,大模型的全能特性發(fā)揮著至關(guān)重要的作用。諸如OpenAI、谷歌等頭部大模型企業(yè)都將醫(yī)療作為模型的重點(diǎn)訓(xùn)練方向和性能評(píng)價(jià)的重要體系。ChatGPT早在2023年2月便已通過了美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE),顯示出其在醫(yī)學(xué)領(lǐng)域的強(qiáng)大能力。而谷歌對(duì)醫(yī)療領(lǐng)域的重視更甚,基于PaLM模型打造了醫(yī)療大模型Med-PaLM,迭代后的Med-PaLM 2在醫(yī)學(xué)考試 MedQA中的成績(jī)超過80分,達(dá)到了專家水平。
為了給Baichuan3注入豐富的醫(yī)療知識(shí),百川智能在模型預(yù)訓(xùn)練階段構(gòu)建了超過千億Token的醫(yī)療數(shù)據(jù)集,包括醫(yī)學(xué)研究文獻(xiàn)、真實(shí)的電子病歷資料、醫(yī)學(xué)領(lǐng)域的專業(yè)書籍和知識(shí)庫資源、針對(duì)醫(yī)療問題的問答資料等。該數(shù)據(jù)集涵蓋了從理論到實(shí)際操作,從基礎(chǔ)理論到臨床應(yīng)用等各個(gè)方面的醫(yī)學(xué)知識(shí),確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識(shí)深度。
針對(duì)醫(yī)療知識(shí)激發(fā)的問題,百川智能在推理階段針對(duì)Prompt做了系統(tǒng)性的研究和調(diào)優(yōu),通過準(zhǔn)確的描述任務(wù)、恰當(dāng)?shù)氖纠龢颖具x擇,讓模型輸出更加準(zhǔn)確以及符合邏輯的推理步驟,Baichuan 3在醫(yī)療領(lǐng)域的任務(wù)效果提升顯著,在各類中英文醫(yī)療測(cè)試中的成績(jī)提升了2到14個(gè)百分點(diǎn)。
Baichuan 3在多個(gè)權(quán)威醫(yī)療評(píng)測(cè)任務(wù)中表現(xiàn)優(yōu)異,不僅MCMLE、MedExam、CMExam等中文醫(yī)療任務(wù)的評(píng)測(cè)成績(jī)超過GPT-4,USMLE、MedMCQA等英文醫(yī)療任務(wù)的評(píng)測(cè)成績(jī)也逼近了GPT-4的水準(zhǔn),是醫(yī)療能力最強(qiáng)的中文大模型。
創(chuàng)作精準(zhǔn)度提升
另外,百川智能還強(qiáng)調(diào),Baichuan 3突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),進(jìn)一步提升了語義理解和生成能力,在詩詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)更優(yōu)了。
語義理解和文本生成是大模型最基礎(chǔ)的底層能力,為提升這兩項(xiàng)能力,業(yè)界進(jìn)行了大量探索和實(shí)踐,OpenAI、Google以及Anthropic等引入的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))和RLAIF(基于AI反饋的強(qiáng)化學(xué)習(xí))便是其中的關(guān)鍵技術(shù)。
百川智能采用了RLHF與RLAIF結(jié)合的方式來生成高質(zhì)量?jī)?yōu)質(zhì)偏序數(shù)據(jù),在數(shù)據(jù)質(zhì)量和數(shù)據(jù)成本之間獲得了更好的平衡。在此基礎(chǔ)上,對(duì)于“探索與利用”這一根本挑戰(zhàn),百川智能通過PPO探索空間與Reward Model評(píng)價(jià)空間的同步升級(jí),實(shí)現(xiàn)“迭代式強(qiáng)化學(xué)習(xí)”(iterative RLHF&RLAIF),讓Baichuan 3的語義理解和生成創(chuàng)作能力大幅提升。
百川智能強(qiáng)大,Baichuan 3結(jié)合“RLHF&RLAIF”以及迭代式強(qiáng)化學(xué)習(xí)的方法,讓大模型的詩詞創(chuàng)作能力達(dá)到全新高度??捎眯韵啾犬?dāng)前業(yè)界最好的模型水平提升達(dá)500%,文采遠(yuǎn)超GPT-4。以下為Baichuan 3所寫的兩首詩詞,可以看看:
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 亞馬遜CTO:2025年及未來五大技術(shù)趨勢(shì)預(yù)測(cè)
- 夢(mèng)餉科技攜手羽絨服品牌鴨鴨開啟"超級(jí)品牌日”,首日GMV同比增長(zhǎng)300%
- 國(guó)際SOS報(bào)告:2024年收到中國(guó)客戶海外安全案件數(shù)量同比增長(zhǎng)23%,2025年重點(diǎn)應(yīng)對(duì)風(fēng)險(xiǎn)“碎片化”
- 消息稱小米正搭建GPU萬卡集群 加大AI大模型投入
- 阿里影業(yè)入股天浩盛世 后者為姚安娜經(jīng)紀(jì)公司
- 再向河北捐1億種樹!此前螞蟻森林已捐資2.5億元支持河北植樹造林
- 李想:理想不會(huì)做Robotaxi 2030年有可能做一款人工智能超跑
- 小米SU7通過全部冬測(cè)項(xiàng)目 目標(biāo)成為冬季電車?yán)m(xù)航之王
- 廣電部門約見“紅果短劇”負(fù)責(zé)人 對(duì)其微短劇規(guī)范發(fā)展提出要求
- 央視新聞《頂級(jí)實(shí)驗(yàn)室》走進(jìn)長(zhǎng)城汽車 解密國(guó)產(chǎn)車為什么更抗造
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。