MedBench最新評測:山海大模型醫(yī)療專業(yè)能力全球第一,各項指標力壓GPT-4

近日,由上海AI實驗室和上海市數(shù)字醫(yī)學創(chuàng)新中心聯(lián)合推出的MedBench評測更新榜單,繼4月份奪冠后,云知聲山海大模型醫(yī)療行業(yè)版(UniGPT-Med)再次以綜合得分82.2的優(yōu)異成績位列全球第一,各項指標全面超越GPT-4,充分展現(xiàn)出山海大模型在擁有業(yè)內一流的通用能力之外,更具備打造世界領先的行業(yè)大模型的能力。

http://m.ygpos.cn/uploadfile/pic2020/2024/0613/2024061310200127G.png

MedBench致力于打造一個科學、公平且嚴謹?shù)闹形尼t(yī)療大模型評測體系及開放平臺,其基于醫(yī)學權威標準,不斷更新維護高質量的醫(yī)學數(shù)據集,全方位多維度量化模型在各個醫(yī)學維度的能力。

MedBench的五大評測維度——醫(yī)學語言理解、醫(yī)學語言生成、醫(yī)學知識問答、復雜醫(yī)學推理、醫(yī)療安全和倫理,構成了其專業(yè)評測框架的核心。這一框架吸納了海量醫(yī)學知識庫和醫(yī)院醫(yī)學專家的豐富經驗,涵蓋8個公開數(shù)據集和12個自建數(shù)據集,總計約30萬道中文醫(yī)療專業(yè)測評題目,覆蓋了從醫(yī)學考試題庫到患者服務、醫(yī)學問診、病例分析以及病歷生成等廣泛的醫(yī)學任務,致力為中文醫(yī)療大模型提供客觀科學的性能評測參考。

今年5月,MedBench平臺全面升級,不僅引入API評測方式,豐富了參評途徑,還優(yōu)化了開放域問答的評估指標。通過醫(yī)學專家的精準標注,平臺進一步提升了評測結果的公正性和專業(yè)性。同時,平臺在數(shù)據集、評測方法和系統(tǒng)功能等方面也進行了升級,旨在為醫(yī)療大模型評測構建一個更加完善的社區(qū)環(huán)境,并提供更加豐富、真實的實踐場景。

此次評測,云知聲山海大模型醫(yī)療行業(yè)版(UniGPT-Med)通過API提交方式,不僅以82.2的綜合得分刷新了MedBench評測記錄,更是在各個維度上力壓GPT-4,排名全球第一。這一成績的取得,是山海大模型醫(yī)療專業(yè)能力的集中展現(xiàn),也標志著其技術迭代和創(chuàng)新發(fā)展達到了一個新的高度。

目前,山海大模型通用能力已超越GPT-3.5,并在SuperCLUE 4月評測中躋身國內大模型Top10;與GPT-4的對戰(zhàn)中,山海綜合勝率與和率為75.55%。

在醫(yī)療專業(yè)能力上,山海大模型于2023年6月的MedQA任務中超越Med-PaLM 2,取得87.1%的優(yōu)異成績;在臨床執(zhí)業(yè)醫(yī)師資格考試中以523分(總分600分)的優(yōu)異成績,超過99%的考生水平;其基于山海大模型孵化的醫(yī)療行業(yè)版大模型,也在CCKS 2023 PromptCBLUE醫(yī)療大模型評測中奪得通用賽道一等獎。

隨著醫(yī)療行業(yè)對智能化、精準化服務需求的不斷增長,云知聲山海大模型醫(yī)療行業(yè)版(UniGPT-Med)有望在醫(yī)療健康領域扮演更加關鍵的角色,為提升醫(yī)療服務效率、優(yōu)化患者體驗、推動醫(yī)療科技進步提供強有力的支持。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )