AI醫(yī)療界的3大亂象以及如何評價醫(yī)學人工智能的成果?

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注:本文作者代號HHH,目前為一家人工智能醫(yī)療創(chuàng)業(yè)公司的CEO,有10多年硅谷的高科技公司的工作經(jīng)歷(Google, Cisco等),斯坦福商學院Sloan Fellow。

業(yè)內人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學人工智能的成果?

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格蘭》刊出了一篇觀點文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《機器學習和醫(yī)學預測--遠超過高期望的峰值》,文章的批判方法算是很給深度學習這個新工具留面子了。

這里插播一句,我最近接觸了一些自稱主要關注醫(yī)療方向的投資人和創(chuàng)業(yè)者,發(fā)現(xiàn)有些人居然不知道這個地球上影響因子排名前幾的臨床醫(yī)學期刊?!犊茖W》雜志主刊2016年影響因子37.205分,《自然》主刊是40.137,而《新英格蘭》是72.406分。當然,有可能這些人也不知道什么叫影響因子。

這篇文章借用了Gartner的技術成熟度曲線Hype Cycle,講述現(xiàn)在對于醫(yī)療界來說深度學習處于過高期望的峰值(Peak of Inflated Expectations)時期,希望我們正確的理解這項技術的能力和局限性,繼而進入幻想破滅的底谷期 (Trough of Disillusionment),而不是徹底性的崩潰,然后才有然后:穩(wěn)步爬升的光明期 (Slope of Enlightenment)和實質生產的高峰期 (Plateau of Productivity)。

業(yè)內人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學人工智能的成果?

文章用嚴謹和隱晦的語言,指出了現(xiàn)在醫(yī)學人工智能界做的一些不靠譜、不合醫(yī)學邏輯和沒有臨床價值的事情?;赜^國內市場,這些不靠譜、不合醫(yī)學邏輯和沒有臨床價值的事情反而愈演愈烈,耗費了大量的資本和醫(yī)療資源,可謂幾大亂象。

一、樂此不疲的人機大賽

醫(yī)學是講證據(jù)的學科,如何證明一項臨床成果的先進性,實用性和穩(wěn)定性,是個學問。

也許是阿爾法狗給大家?guī)Я藗€頭兒,覺得用人工智能PK人類只要是平了或者贏了就是證據(jù),于是大江南北人機大賽屢見不鮮:《人工智能PK最強醫(yī)腦系列大賽》、《首屆人機讀片競技大賽召開》、《AI-醫(yī)師讀片競賽》、《XXX達到/超過人類醫(yī)生的水平》等等,伴隨著這些大賽的,往往是一系列的發(fā)布會。一共就十幾個甚至幾個醫(yī)生參與,一共就幾百張甚至幾十張醫(yī)學影像,最后的百分數(shù)結果保留至少四位有效數(shù)字,能夠證明毛線?且不說是否有為了發(fā)布會安排結果的嫌疑,單就醫(yī)生的水平、狀態(tài),數(shù)據(jù)隨機性和廣泛性都是論證過程中不堪一擊的節(jié)點,不能細想不可追問。

二、樂于做不可證偽的預測

醫(yī)學是講證據(jù)的學科,可是總有一些問題是沒有辦法證明對錯的。

最典型的就是做個體診斷的預測。預測,根據(jù)特征人群的患病概率來指導篩查是有價值的,但是對于個體診斷進行的預測是無法證偽也是不科學的。比如,預測特定的個體將有80%的概率患肺癌,和預測30%有本質區(qū)別嗎?得肺癌可以說明前者更準嗎,不得肺癌可以說明后者更準嗎,沒得肺癌可以證明明年不得嗎?深度學習這個工具有一個所謂必殺技:有問必答。別問它怎么得出來的,它聲稱是有“像人腦一樣的一套神經(jīng)元思考”出來的。作為一個擬合函數(shù),深度學習一定是有輸入就有輸出的,但是對于輸出的結果,如果沒有金標準檢驗,就方便做文章收智商稅?!缎掠⒏裉m》的文章中還提及另一種不可證偽,叫做本身就是一句廢話,也就是淺顯的道理。比如用人工智能來判斷一個高齡且有各種病史的患者有極高的手術風險。臨床需求是看哪種診斷或治療方案更有用,而不是看誰說得廢話更多。

三、脫離臨床指南,幻想被樹上掉下來的蘋果砸到

醫(yī)學是講證據(jù)的學科,可靠的證據(jù)形成了臨床指南,可靠的證據(jù)在推動臨床指南的發(fā)展。

也許現(xiàn)在計算機的進步讓更多的數(shù)據(jù)可以被利用起來來進行綜合判斷,但是在這些判斷標準進入臨床指南之前,都是科研探索的性質。《新英格蘭》的觀點文章中明確的提到了這種行為,這種沒有已經(jīng)探明的醫(yī)學邏輯支撐,通過堆砌更多維度的數(shù)據(jù)妄想有所發(fā)現(xiàn)的行為,最終會陷于蝴蝶效應帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克”哥德巴赫猜想“,當時的數(shù)學家看待這些群眾的努力,也許就像現(xiàn)在醫(yī)學研究領域的科學家在看大數(shù)據(jù)工程師們。聽說全國有幾百家做基因檢測服務的公司,他們中的很多給投資人講得故事就是拼命收集數(shù)據(jù),數(shù)據(jù)堆得多了,深度學習自然就會發(fā)現(xiàn)規(guī)律。“讀書百遍,其義自見”嗎?科研工作,還是留給那些受過科學訓練的人們吧。

如何具體評價醫(yī)學人工智能的成果

上述《新英格蘭》觀點論文的結束語是,是否人工智能和人類醫(yī)生誰更聰明的爭論在持續(xù)升溫,但是沒有意義。如何讓人工智能和人類醫(yī)生來一起實現(xiàn)任何單一方都無法提供的臨床效果,才是關鍵。

一、尊重臨床指南

做臨床,不是發(fā)明創(chuàng)造,是很具體的實際操作,臨床指南就是圣經(jīng)。做人工智能產品就是要在臨床指南的范圍才有意義,說得庸俗點,才會有商業(yè)意義。因為這些產品將優(yōu)化臨床醫(yī)療的具體的步驟和環(huán)節(jié),無論是降低漏診,還是幫助醫(yī)生更快速更準確的作出診斷,都是有價值且有價格的事情。如果非要去證明”哥德巴赫猜想“,很大的目標價值和超小概率的乘積,恐怕也是趨近于零。

在臨床指南之內,其實有很多可以實現(xiàn)且值得去做的人工智能項目。以醫(yī)學圖像AI為例,因為醫(yī)生的肉眼和經(jīng)驗畢竟是有局限性的,所以突破這些局限性,就是臨床價值的落點。計算機視覺三大領域: 分類(Classification)、檢測(Detection)和分割(Segamentation),不同的臨床問題下分別都會有用武之地,同時具體的臨床需求也會需要用不同的計算機視覺方法。例如,糖尿病視網(wǎng)膜病變的自動識別:按照國際分級,如果確診為重度非增生性病變,需要醫(yī)生能夠從大約4000*4000分辨率的眼底照片每個象限中至少能數(shù)出20個出血點,還有靜脈串珠等其他病灶。這些病灶小到只有幾十個像素,那么幫助醫(yī)生快速的鎖定和計數(shù)這些微小的目標,檢測(Detection)就是最合適的手段,而做分類(Classification)只能夠起到核對診斷結果的作用,不能夠有效輔助醫(yī)生做出診斷;而此處做分割(Segamentation)有顯得沒有太大的必要性。

懂行的讀者可能會想起去年Google在美國醫(yī)學會期刊JAMA(影響因子44.405)上發(fā)表的學術成果,對糖尿病視網(wǎng)膜病變的分級就是用的對整張圖片的分類Classification,而并非對病灶的檢測Detection,沒錯,結果很好。但是試想一下,當臨床指南發(fā)生些許變化,比如改為要數(shù)出30個出血點時,Google這項成果的所有工作,包括前期十幾萬張眼底圖片的標注,都要完全重來一遍。

二、使用醫(yī)學的評價體系

使用醫(yī)學而不是計算機工程的評價體系來衡量人工智能系統(tǒng)是否靠譜。在此需要介紹幾個概念:

Sensitivity (敏感度):描述了系統(tǒng)正確的判斷陽性的能力,計算方法為,系統(tǒng)正確判斷為陽性數(shù)量除以所有陽性數(shù)量。敏感度越高,說明系統(tǒng)的漏診率越低。

Specificity(特異度):描述里系統(tǒng)正確的判斷陰性的能力,計算方法為,系統(tǒng)正確判斷為陰性的數(shù)量除以所有陰性數(shù)量。特異度越高,說明系統(tǒng)的誤報率越低。

我們希望系統(tǒng)能夠在漏診最少的情況下誤報也最少,也就是要求高敏感度和高特異度,但是在任何系統(tǒng),“明察秋毫”和”枉殺千人“總需要找一個平衡點。臨床要追求整體的運行效率,犧牲敏感度追求特異度會造成漏診率提高,致使篩查或檢查不達目的;犧牲特異度追求敏感度可能導致醫(yī)療資源浪費投入到假陽性的案例中(這是一道GMAT邏輯考題)。

我們再看看計算機工程界常用的評價指標:

Accuracy (準確率):判斷正確的樣本數(shù)與總樣本數(shù)之間的比例。計算方法為,系統(tǒng)正確判斷為陽性與正確判斷為陰性的數(shù)量之和除以總樣本數(shù)量。

Precision (精確率):系統(tǒng)判斷為陽性的情況中正確的比例。計算方法為,系統(tǒng)正確的判斷為陽性的數(shù)量除以系統(tǒng)判斷為陽性的總數(shù)量。

Recall (召回率):等同于敏感度。

聰明的你會發(fā)現(xiàn),準確率Accuracy和精確率Precision嚴重依賴于樣本總數(shù)里陽性和陰性的配比,舉個極端的案例,設計一個系統(tǒng),對于所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的系統(tǒng),那么此時取100個測試樣本中,99個為陽性,1個為陰性,此時計算出的準確率為99%,精確率也是99%。

現(xiàn)實中,做出一個敏感度高特異度不高,或者反之的系統(tǒng)是很容易的,可以輕松的調整測試樣本的陽性陰性比例來優(yōu)化其準確率和精確率值。

不難理解,為什么公關軟文中最常出現(xiàn)“準確率超過95%”,“精確率超過98%”,云云。下次再讀到“準確率超過95%”的時候,我們可以這么想,準確率95%可能意味著系統(tǒng)蒙答案的時候主要蒙A選項,然后測試樣本中的A占絕對多數(shù);那么再讀到“精確率超過98%”的時候,我們可以這么想,系統(tǒng)的敏感度可能只有30%,在他能夠報出為陽性的時候,絕大部分是對的。

所以,回避了醫(yī)學常用的評價標準,通過百分數(shù)嘩眾取寵搞新聞效應是比較容易實現(xiàn)的。甚至在一些學術論文和國際醫(yī)學圖像識別的競賽中,也經(jīng)常出現(xiàn)只看精確率和召回率,而不出現(xiàn)特異度指標的情況,有些公司還恰恰以這些影響因子0.5分不到的學術論文為榮譽,或者因在這些國際大賽中又將精確度提升了0.12個百分點而驕傲。如果你問我“茴香豆的茴字有幾種寫法”,我會回答“一萬種”。能解決臨床需求的AI才是好AI。評價醫(yī)學人工智能系統(tǒng)是否有用,要同時看其正確的判斷陽性的能力和正確的判斷陰性的能力,即敏感度和特異度。

三、關注過擬合風險

在《新英格蘭》的文章中,“Bias偏見”的詞頻很高,是指因為數(shù)據(jù)產生的偏見,也就是我們常說的過擬合。文中提及傳統(tǒng)開發(fā)中使用到的數(shù)據(jù)被精確構建以最小化偏見,但是現(xiàn)在的機器學習的開發(fā)方法已經(jīng)不可避免的放大了偏見。所以評價一個人工智能系統(tǒng),要衡量他有多偏。看測試樣本夠不夠規(guī)模、產生于什么時間、什么地區(qū)、以至于民族和種族。專業(yè)人士可以通過觀察訓練樣本和測試樣本本身,來判斷人工智能項目的過擬合風險。如果是過擬合嚴重的系統(tǒng),再高的敏感度和特異度指標,其臨床價值也要打個問號。雖然偏見不可避免,但是我們還是可以簡單的衡量一個系統(tǒng)的過擬合風險的大?。簻y得多總比測得少要好,測試樣本與訓練樣本數(shù)量比值越大越好,人口統(tǒng)計學背景越復雜越好等等,道理淺顯,不一一贅述。

嚴謹并樂觀著

《新英格蘭》這篇觀點文章,用詞嚴謹?shù)浇蹩瘫?,說法隱晦到讓人感嘆知識分子罵人不帶臟字兒,但是最后還是樂觀:深度學習也不斷的在一些曾經(jīng)被認為不可能完成的圖像識別任務中屢建戰(zhàn)功。所以,還是要樂觀,推動深度學習的幻想破滅而進入穩(wěn)步爬升的光明期 (Slope of Enlightenment)。

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注:本文作者代號HHH,目前為一家人工智能醫(yī)療創(chuàng)業(yè)公司的CEO,有10多年硅谷的高科技公司的工作經(jīng)歷(Google, Cisco等),斯坦福商學院Sloan Fellow。

業(yè)內人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學人工智能的成果?

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格蘭》刊出了一篇觀點文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《機器學習和醫(yī)學預測--遠超過高期望的峰值》,文章的批判方法算是很給深度學習這個新工具留面子了。

這里插播一句,我最近接觸了一些自稱主要關注醫(yī)療方向的投資人和創(chuàng)業(yè)者,發(fā)現(xiàn)有些人居然不知道這個地球上影響因子排名前幾的臨床醫(yī)學期刊?!犊茖W》雜志主刊2016年影響因子37.205分,《自然》主刊是40.137,而《新英格蘭》是72.406分。當然,有可能這些人也不知道什么叫影響因子。

這篇文章借用了Gartner的技術成熟度曲線Hype Cycle,講述現(xiàn)在對于醫(yī)療界來說深度學習處于過高期望的峰值(Peak of Inflated Expectations)時期,希望我們正確的理解這項技術的能力和局限性,繼而進入幻想破滅的底谷期 (Trough of Disillusionment),而不是徹底性的崩潰,然后才有然后:穩(wěn)步爬升的光明期 (Slope of Enlightenment)和實質生產的高峰期 (Plateau of Productivity)。

業(yè)內人的“針砭時弊”:AI醫(yī)療界的3大亂象以及如何評價醫(yī)學人工智能的成果?

文章用嚴謹和隱晦的語言,指出了現(xiàn)在醫(yī)學人工智能界做的一些不靠譜、不合醫(yī)學邏輯和沒有臨床價值的事情?;赜^國內市場,這些不靠譜、不合醫(yī)學邏輯和沒有臨床價值的事情反而愈演愈烈,耗費了大量的資本和醫(yī)療資源,可謂幾大亂象。

一、樂此不疲的人機大賽

醫(yī)學是講證據(jù)的學科,如何證明一項臨床成果的先進性,實用性和穩(wěn)定性,是個學問。

也許是阿爾法狗給大家?guī)Я藗€頭兒,覺得用人工智能PK人類只要是平了或者贏了就是證據(jù),于是大江南北人機大賽屢見不鮮:《人工智能PK最強醫(yī)腦系列大賽》、《首屆人機讀片競技大賽召開》、《AI-醫(yī)師讀片競賽》、《XXX達到/超過人類醫(yī)生的水平》等等,伴隨著這些大賽的,往往是一系列的發(fā)布會。一共就十幾個甚至幾個醫(yī)生參與,一共就幾百張甚至幾十張醫(yī)學影像,最后的百分數(shù)結果保留至少四位有效數(shù)字,能夠證明毛線?且不說是否有為了發(fā)布會安排結果的嫌疑,單就醫(yī)生的水平、狀態(tài),數(shù)據(jù)隨機性和廣泛性都是論證過程中不堪一擊的節(jié)點,不能細想不可追問。

二、樂于做不可證偽的預測

醫(yī)學是講證據(jù)的學科,可是總有一些問題是沒有辦法證明對錯的。

最典型的就是做個體診斷的預測。預測,根據(jù)特征人群的患病概率來指導篩查是有價值的,但是對于個體診斷進行的預測是無法證偽也是不科學的。比如,預測特定的個體將有80%的概率患肺癌,和預測30%有本質區(qū)別嗎?得肺癌可以說明前者更準嗎,不得肺癌可以說明后者更準嗎,沒得肺癌可以證明明年不得嗎?深度學習這個工具有一個所謂必殺技:有問必答。別問它怎么得出來的,它聲稱是有“像人腦一樣的一套神經(jīng)元思考”出來的。作為一個擬合函數(shù),深度學習一定是有輸入就有輸出的,但是對于輸出的結果,如果沒有金標準檢驗,就方便做文章收智商稅?!缎掠⒏裉m》的文章中還提及另一種不可證偽,叫做本身就是一句廢話,也就是淺顯的道理。比如用人工智能來判斷一個高齡且有各種病史的患者有極高的手術風險。臨床需求是看哪種診斷或治療方案更有用,而不是看誰說得廢話更多。

三、脫離臨床指南,幻想被樹上掉下來的蘋果砸到

醫(yī)學是講證據(jù)的學科,可靠的證據(jù)形成了臨床指南,可靠的證據(jù)在推動臨床指南的發(fā)展。

也許現(xiàn)在計算機的進步讓更多的數(shù)據(jù)可以被利用起來來進行綜合判斷,但是在這些判斷標準進入臨床指南之前,都是科研探索的性質。《新英格蘭》的觀點文章中明確的提到了這種行為,這種沒有已經(jīng)探明的醫(yī)學邏輯支撐,通過堆砌更多維度的數(shù)據(jù)妄想有所發(fā)現(xiàn)的行為,最終會陷于蝴蝶效應帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克”哥德巴赫猜想“,當時的數(shù)學家看待這些群眾的努力,也許就像現(xiàn)在醫(yī)學研究領域的科學家在看大數(shù)據(jù)工程師們。聽說全國有幾百家做基因檢測服務的公司,他們中的很多給投資人講得故事就是拼命收集數(shù)據(jù),數(shù)據(jù)堆得多了,深度學習自然就會發(fā)現(xiàn)規(guī)律。“讀書百遍,其義自見”嗎?科研工作,還是留給那些受過科學訓練的人們吧。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-08-15
AI醫(yī)療界的3大亂象以及如何評價醫(yī)學人工智能的成果?
是否人工智能和人類醫(yī)生誰更聰明的爭論在持續(xù)升溫,但是沒有意義。如何讓人工智能和人類醫(yī)生來一起實現(xiàn)任何單一方都無法提供的臨床效果,才是關鍵。

長按掃碼 閱讀全文