醫(yī)療領(lǐng)域是一個典型的富文本富知識領(lǐng)域,存在大量專業(yè)術(shù)語和知識以及海量醫(yī)療文本數(shù)據(jù),包括電子病歷、醫(yī)學教材、臨床指南和醫(yī)學文獻等。醫(yī)療AI的核心是讓機器訓練成一個合格的醫(yī)生,能夠閱讀并理解醫(yī)療文本,具有醫(yī)療專業(yè)知識,并能做出正確的醫(yī)療決策。
近日,云知聲-中科院自動化所語言與知識計算聯(lián)合實驗室團隊(Unisound&CASIA)取得關(guān)鍵技術(shù)突破,自主研發(fā)了基于高效持續(xù)學習的醫(yī)療預訓練語言模型,并針對多項下游任務微調(diào)。這一方法在CBLUE2.0月度榜單中綜合得分排名第一(1/1009),體現(xiàn)了團隊在醫(yī)療AI行業(yè)的技術(shù)領(lǐng)先性。
中文醫(yī)療信息處理榜CBLUE2.0榜單排名
CBLUE:首個中文醫(yī)療信息領(lǐng)域公開評測基準
中文醫(yī)療信息處理挑戰(zhàn)榜CBLUE(Chinese Biomedical Language Understanding Evaluation) 是由中國中文信息學會醫(yī)療健康與生物信息處理專業(yè)委員會在合法開放共享的理念下發(fā)起,旨在推動中文醫(yī)學NLP技術(shù)和社區(qū)的發(fā)展。該榜單在設(shè)計上綜合考慮了任務類型和任務難度兩個維度,目標是建設(shè)一個任務類型覆蓋廣、同時也要保證任務的難度的benchmark,因此榜單在吸收往屆CHIP/CCKS/CCL等學術(shù)評測任務的同時也適當增加了業(yè)界數(shù)據(jù)集,業(yè)務數(shù)據(jù)集的特點是數(shù)據(jù)真實且有噪音,對模型的魯棒性提出了更高的要求。CBLUE評測基準2.0任務形式多樣,涵蓋了醫(yī)學信息抽取(實體抽取,關(guān)系抽取,事件抽取)、醫(yī)學術(shù)語標準化(疾病和手術(shù)自動ICD編碼)、醫(yī)學文本分類、醫(yī)學句子關(guān)系判定和醫(yī)學對話理解與生成共5大類任務15個子任務;其數(shù)據(jù)來源分布廣泛,包括醫(yī)學術(shù)語、醫(yī)學教材、電子病歷、臨床試驗征集文本以及互聯(lián)網(wǎng)輕問診文本等。該榜單推出后受到了學界和業(yè)界的廣泛關(guān)注,自2021年4月正式上線以來,共吸引包括百度醫(yī)療等超300支隊伍參與打榜,已逐漸發(fā)展成為檢驗中文醫(yī)療信息處理能力的“金標準”。
云知聲醫(yī)療預訓練語言模型CirBERTa
云知聲-中科院自動化所語言與知識計算聯(lián)合實驗團隊在醫(yī)療預訓練語言模型技術(shù)上取得突破性進展,在CBLUE2.0榜單上登頂榜首。模型在5個單項任務(CHIP-CTC、CHIP-STS、KUAKE-QIC、MedDG、CHIP-MDCFNPC)排名第一,10個單項排名前三,取得了綜合分74.700的佳績。
成功登頂背后的關(guān)鍵技術(shù)是聯(lián)合實驗室團隊研發(fā)的醫(yī)療預訓練語言模型CirBERTa。首先,基于團隊在醫(yī)療知識圖譜和醫(yī)療文本理解方面多年的積累,利用預訓練語言模型領(lǐng)域增強和知識增強技術(shù),學習了 100 多萬的醫(yī)學專業(yè)術(shù)語和 超過200G的醫(yī)療文本數(shù)據(jù),大幅提升了對醫(yī)療文本的理解和生成能力。其次,現(xiàn)有預訓練語言模型方法注重建模通用語義理解能力,不能有效區(qū)分不同難易程度的樣本,導致困難樣本的處理能力較弱。針對這一問題,CirBERTa在DeBERTa-V3模型的基礎(chǔ)上,融入了持續(xù)學習的理念。一方面,自動識別和檢測當前模型中難以理解的語義內(nèi)容(如字詞、句子等);另一方面,通過增量訓練讓模型更好地理解和記憶這些語義內(nèi)容。兩方面持續(xù)迭代學習,增強了模型的語義表達能力和對困難數(shù)據(jù)的學習能力,無論是在通用領(lǐng)域還是在醫(yī)療等低資源領(lǐng)域,CirBERTa都顯著地改善了模型的訓練效率與深層次語義分析能力,達到了SOTA效果。
CirBERTa模型示意圖
在此之前,云知聲已成功將醫(yī)療領(lǐng)域NLP技術(shù)在多個項目中落地,并在多項評測比賽中取得冠亞軍,此次登頂有效驗證了云知聲在醫(yī)療NLP技術(shù)方面的先進性與全面性。目前,預訓練語言模型CirBERTa已經(jīng)全面應用于云知聲智慧醫(yī)療的多個產(chǎn)品線,包括病歷質(zhì)控系統(tǒng)、單病種質(zhì)量管理平臺、導診預診機器人、醫(yī)保審核系統(tǒng)等。未來,云知聲還將持續(xù)推動自然語言處理及知識圖譜等技術(shù)在醫(yī)療領(lǐng)域的技術(shù)創(chuàng)新,用科技的力量提升打造虛擬醫(yī)生,提供智慧醫(yī)療服務,建設(shè)智慧型醫(yī)院。
(可以加上以前評測獲獎類的PR文章鏈接)
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )