山海新升級(jí):OpenCompass大模型評(píng)測(cè)全球廠商排名第六,多項(xiàng)能力超越GPT-4

近日,山海大模型完成新一輪迭代升級(jí),并在最新的OpenCompass大模型評(píng)測(cè)中取得綜合性中英文雙語客觀評(píng)測(cè)得分53.6、綜合性中文主觀評(píng)測(cè)得分42.2的優(yōu)異成績(jī),在參與測(cè)評(píng)的全球大模型廠商中排名第六。評(píng)測(cè)結(jié)果顯示,其在中英文雙語客觀評(píng)測(cè)中的語言、知識(shí)、推理能力,在綜合性中文主觀評(píng)測(cè)中的創(chuàng)作能力已超越GPT-4。

https://img2.danews.cc/upload/images/20240410/3c7c5067dab03cba96636ca2a891e21a.png

綜合性中英文雙語客觀評(píng)測(cè)排名

https://img2.danews.cc/upload/images/20240410/5eb2b4f89769baa0b05d4fc9b9c26bb3.png

綜合性中文主觀評(píng)測(cè)排名

作為上海人工智能實(shí)驗(yàn)室開源的大模型評(píng)測(cè)體系,OpenCompass致力于探索最先進(jìn)的語言與視覺模型,為工業(yè)界和研究社區(qū)提供全面、客觀、中立的評(píng)測(cè)參考,從而根據(jù)不同能力維度的評(píng)測(cè)分?jǐn)?shù)指導(dǎo)大模型的優(yōu)化與進(jìn)步。

OpenCompass 月度榜單從基礎(chǔ)能力和綜合能力的設(shè)計(jì)出發(fā),構(gòu)造了一套高質(zhì)量的中英文雙語評(píng)測(cè)基準(zhǔn),涵蓋語言與理解、常識(shí)與邏輯推理、數(shù)學(xué)計(jì)算與應(yīng)用、多編程語言代碼能力、智能體、創(chuàng)作與對(duì)話六個(gè)方面二十余項(xiàng)細(xì)分任務(wù),力圖對(duì)近期的主流開源模型和商業(yè) API 模型進(jìn)行全面評(píng)測(cè)分析。

此次榜單囊括了國(guó)內(nèi)外 40 個(gè)大語言模型,評(píng)測(cè)數(shù)據(jù)集采用中英文閉源數(shù)據(jù)集,包括綜合性中文主觀評(píng)測(cè)和綜合性中英文雙語客觀評(píng)測(cè)。云知聲山海大模型綜合性中英文雙語客觀評(píng)測(cè)得分53.6,綜合性中文主觀評(píng)測(cè)得分42.2,排名國(guó)產(chǎn)大模型廠商第四、全球大模型廠商第六。從各項(xiàng)數(shù)據(jù)看,其在語言、知識(shí)、推理、創(chuàng)作等方面表現(xiàn)優(yōu)異,顯現(xiàn)出強(qiáng)勁的綜合實(shí)力。 

https://img2.danews.cc/upload/images/20240410/91d42e3892f4db5caa13cc108e0f9a55.png

綜合性中英文雙語客觀評(píng)測(cè)得分

https://img2.danews.cc/upload/images/20240410/2d6ab5ff4a77fba6a8dd3b506b8b23a6.png

綜合性中文主觀評(píng)測(cè)得分

而山海大模型之所以能夠在眾多大模型中脫穎而出,得益于其在技術(shù)上的一系列創(chuàng)新和優(yōu)化——在本次大模型升級(jí)中,云知聲引入了自我演進(jìn)偏好學(xué)習(xí)技術(shù),使得大模型能夠通過自我對(duì)弈微調(diào)(SPIN)實(shí)現(xiàn)自我提升。在高質(zhì)量數(shù)據(jù)生成方面,云知聲結(jié)合RLHF和RLAIF方法,生成大量偏好數(shù)據(jù),并采用k-Center Greedy算法確保數(shù)據(jù)的多樣性和覆蓋度。此外,云知聲還建立了一個(gè)全面的自動(dòng)化評(píng)測(cè)體系,以此實(shí)現(xiàn)對(duì)模型效果的快速評(píng)測(cè),進(jìn)而支持大模型的迭代和優(yōu)化。

自2023年5月發(fā)布以來,山海大模型始終保持高速迭代,其在C-Eval全球大模型綜合性評(píng)測(cè)、CCKS 2023醫(yī)療大模型評(píng)測(cè)等權(quán)威賽事上屢獲佳績(jī),展現(xiàn)出全面的通用能力和卓越的專業(yè)能力,成功躋身大模型第一梯隊(duì)。此次評(píng)測(cè),是山海大模型出色實(shí)力的又一次印證,也將鞭策其繼續(xù)加速迭代,持續(xù)引領(lǐng)大模型研發(fā)與落地。

作為中國(guó)AGI技術(shù)產(chǎn)業(yè)化的先行者,云知聲于2016年開始打造Atlas人工智能基礎(chǔ)設(shè)施,并以此為基礎(chǔ),構(gòu)建云知大腦(UniBrain)技術(shù)中臺(tái)——以山海(UniGPT)通用認(rèn)知大模型為核心,結(jié)合多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等智能組件,為云知聲智慧物聯(lián)、智慧醫(yī)療、智慧交通等業(yè)務(wù)提供高效的產(chǎn)品化支撐,持續(xù)推動(dòng)“U(云知大腦)+X(應(yīng)用場(chǎng)景)”戰(zhàn)略布局。

https://img2.danews.cc/upload/images/20240410/23ed68af2239dc80b0ea876f5e557d32.png

云知聲全棧AGI技術(shù)與產(chǎn)業(yè)化布局

山海大模型作為云知大腦的核心,其能力體系涵蓋語言生成、語言理解、知識(shí)問答、 邏輯推理、代碼能力、數(shù)學(xué)能力等。此外,為提高大模型在具體場(chǎng)景的應(yīng)用落地水平,山海大模型在通用能力基礎(chǔ)上,增強(qiáng)物聯(lián)、醫(yī)療、交通等行業(yè)能力,致力為客戶提供更智能、更靈活的解決方案,加速千行百業(yè)的智慧化升級(jí)。

目前,云知聲正依托山海大模型技術(shù)能力的加速迭代,逐步深入到智慧醫(yī)療、智慧座艙、智慧軌交、智慧政務(wù)等具體場(chǎng)景,不斷釋放AGI的更多可能。

在智慧醫(yī)療領(lǐng)域,云知聲基于山海大模型打造的門診病歷生成系統(tǒng)已落地北京友誼醫(yī)院,有效提升了病歷撰寫效率與質(zhì)量;在智慧政務(wù)領(lǐng)域,云知聲率先開發(fā)出深圳首個(gè)政務(wù)大模型“龍知政”,全場(chǎng)景賦能提升政府治理水平;在智慧座艙領(lǐng)域,云知聲通過山海大模型賦能吉利睿藍(lán)汽車打造情感型虛擬助手,為用戶帶來全車全場(chǎng)景的情感化智能交互體驗(yàn);在智慧軌交場(chǎng)景,云知聲山海大模型“入駐”南寧火車東站,打造更具人性化的智能客服,助力實(shí)現(xiàn)換乘節(jié)點(diǎn)無縫高效換乘,為乘客帶來更快捷、更便利的出行體驗(yàn),相關(guān)案例也于近期被央視《焦點(diǎn)訪談》欄目報(bào)道。

隨著大模型技術(shù)的不斷進(jìn)步和創(chuàng)新,我們有理由相信,世界將變得更加智能和互聯(lián)。我們期待,山海大模型能夠?qū)崿F(xiàn)更多新的突破,開辟更廣更深的技術(shù)邊界,拓展更多尚未觸及的應(yīng)用場(chǎng)景。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )