深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)

高層速讀

關(guān)鍵信息

1.生物學(xué)與人工智能相結(jié)合,可以預(yù)測和治療疾病,發(fā)現(xiàn)新藥物,為疾病尋找新治療方法,等等;

2.這樣的研究也有一定挑戰(zhàn)性:對數(shù)據(jù)質(zhì)量和數(shù)量擁有嚴(yán)格標(biāo)準(zhǔn)、計算機(jī)缺乏判斷力、算法難以解釋清楚。

上文回顧:生物學(xué)研究人員正在使用深度學(xué)習(xí)算法對細(xì)胞圖像進(jìn)行分類、建立基因組聯(lián)系、推進(jìn)藥物發(fā)現(xiàn)…從基因組學(xué)、成像到電子病歷均有深度學(xué)習(xí)的應(yīng)用。通過人工智能與生物學(xué)的有機(jī)結(jié)合,前者為生物數(shù)據(jù)的測量和分類提供了強(qiáng)有力的幫助,深度學(xué)習(xí)可以檢測到人類無法看到的數(shù)據(jù)特征,算法模型現(xiàn)可以較高精準(zhǔn)度識別圖像標(biāo)簽。

詳情點擊查看:從細(xì)胞圖像到基因組,從影像到藥物發(fā)現(xiàn),還有人工智能做不了的?(上)

深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)

挖掘大量的優(yōu)質(zhì)基因組數(shù)據(jù)

說到深入學(xué)習(xí),不是任何數(shù)據(jù)都能被使用。這種方法通常需要大量的、進(jìn)行良好標(biāo)注的數(shù)據(jù)集。成像數(shù)據(jù)能提供一種天然的契合,基因組數(shù)據(jù)也可以。

一家使用這些數(shù)據(jù)的生物技術(shù)公司是舊金山的Verily Life Sciences(前谷歌生命科學(xué)公司)。Verily的研究人員開發(fā)了一種深入學(xué)習(xí)工具,它比傳統(tǒng)工具能更準(zhǔn)確地識別一種常見的基因變異,稱為單核苷酸多態(tài)性。該軟件被稱為“DeepVariant”,它將基因組信息轉(zhuǎn)換成圖像一樣的表現(xiàn)形式,然后作為圖像進(jìn)行分析(參見下文“Tools for deep diving”,深潛工具)。Verily公司深度學(xué)習(xí)型基因組研究主管Markde Pristo預(yù)計,DeepVariant對于研究主流之外的生物——那些在識別遺傳變異方面擁有低質(zhì)量參考基因組和高錯誤率的生物——將特別有用。他的同事Ryan Poplin在植物研究中使用DeepVariant,相比20%誤差率的傳統(tǒng)方法,這種新工具的誤差率減少了2%。

TOOLS FOR DEEP DIVING(深潛工具)

深度學(xué)習(xí)工具正在迅速發(fā)展,而實驗室將要利用專門的計算專業(yè)知識與協(xié)作。

首先,帶一位有深度學(xué)習(xí)經(jīng)驗的同事出去吃午飯,問問這個策略是否有用,加州舊金山格拉德斯通研究所(Gladstone Institutes)的神經(jīng)學(xué)家Steve Finkbeiner建議道。對于一些數(shù)據(jù)集,如成像數(shù)據(jù),現(xiàn)成的程序可能是夠用的;對于更復(fù)雜的項目,你需要考慮一個合作者,他說,講習(xí)班和會議可以提供培訓(xùn)機(jī)會。

云計算資源的訪問意味著研究人員可能不需要一個現(xiàn)場計算機(jī)集群來使用深度學(xué)習(xí)——他們可以在其他地方運(yùn)行計算。Google的 TensorFlow是一個用于構(gòu)建深入學(xué)習(xí)算法的開源平臺,它可以在軟件共享網(wǎng)站GitHub上找到,正如一個開源版本的DeepVariant一樣——一種精確識別遺傳變異的工具。

谷歌加速科學(xué)(Google Accelerated Science)是谷歌研究部門的一個分支,總部位于加利福尼亞州山景城,與包括生物學(xué)家在內(nèi)的一系列科學(xué)家合作,其研究科學(xué)家之一Michelle Dimon介紹。Dimon說,項目需要一個引人注目的生物學(xué)問題,大量高質(zhì)量的標(biāo)注數(shù)據(jù),以及將使公司機(jī)器學(xué)習(xí)專家能夠為該領(lǐng)域做出獨(dú)特計算貢獻(xiàn)的挑戰(zhàn)。

那些想要跟上深度學(xué)習(xí)進(jìn)展的人應(yīng)該看看“deep review”(深度復(fù)習(xí)),這是一個由費(fèi)城賓夕法尼亞大學(xué)的計算生物學(xué)家Casey Greene領(lǐng)導(dǎo)的全面的、眾包式的評估。

深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)

用深度學(xué)習(xí)預(yù)測疾病

加拿大公司DeepGenology駐多倫多的首席執(zhí)行官BrendanFrey也專注于基因組數(shù)據(jù),但目標(biāo)是預(yù)測和治療疾病。Frey的多倫多大學(xué)學(xué)術(shù)團(tuán)隊開發(fā)了一些用基因組數(shù)據(jù)與從健康細(xì)胞轉(zhuǎn)錄的數(shù)據(jù)來訓(xùn)練的算法。此算法在這些數(shù)據(jù)中建立了RNA加工的預(yù)測模型,如剪接、轉(zhuǎn)錄和多腺苷化。Frey說,當(dāng)應(yīng)用于臨床數(shù)據(jù)時,這些算法能夠識別突變并將其標(biāo)記為致病基因,盡管他們從未見過臨床數(shù)據(jù)。在Deep Genomics中,F(xiàn)rey的團(tuán)隊正在使用同樣的工具來識別和定位軟件發(fā)現(xiàn)的疾病機(jī)理,開發(fā)出由短核酸序列衍生的治療方法。

用深度學(xué)習(xí)發(fā)現(xiàn)藥物

另一門具有大量數(shù)據(jù)集的學(xué)科是藥物發(fā)現(xiàn)。在這里,深入學(xué)習(xí)算法正在幫助解決分類排序上的挑戰(zhàn),通過篩選形狀和氫鍵結(jié)合等分子特征,以確定對這些潛在藥物進(jìn)行排序的標(biāo)準(zhǔn)。例如,位于舊金山的一家生物技術(shù)公司Atomwise已經(jīng)開發(fā)出了將分子轉(zhuǎn)化為三維像素網(wǎng)格的算法,稱為Voxels。這種表達(dá)方式使公司能夠用原子級精確性來解釋蛋白質(zhì)和小分子的三維結(jié)構(gòu),并模擬碳原子的幾何形狀等特征。該公司首席執(zhí)行官AbrahamHeifets表示,這些特征隨后被轉(zhuǎn)化為數(shù)學(xué)向量,該算法可以用來預(yù)測哪些小分子可能與某一特定蛋白質(zhì)發(fā)生相互作用。他說:“我們所做的很多工作都是針對沒有已知結(jié)合劑的(蛋白質(zhì))目標(biāo)?!?/p>

Atomwise正在使用這一策略來推動其新的人工智能驅(qū)動的分子篩選程序,該項目掃描了一個擁有一千萬種化合物的庫,為學(xué)術(shù)研究人員提供了多達(dá)72個潛在小分子結(jié)合劑,以確定能與它們相互在作用的蛋白質(zhì)。

深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)

用深度學(xué)習(xí)尋找治療方法

深入學(xué)習(xí)工具還可以幫助研究人員對疾病進(jìn)行分類,了解疾病亞群體,尋找新的治療方法,并給用這些治療方法給合適的患者進(jìn)行臨床測試和治療。例如,Finkbeiner是Answer ALS財團(tuán)的一個成員,該協(xié)會致力于將一系列數(shù)據(jù)——基因組學(xué)、轉(zhuǎn)錄學(xué)、表觀基因組學(xué)、蛋白質(zhì)組學(xué)、成像,甚至多能干細(xì)胞生物學(xué)——從1000名患有神經(jīng)退行性疾病的人中結(jié)合起來。他說:“這是我們首次擁有一個數(shù)據(jù)集,我們可以在這里應(yīng)用深度學(xué)習(xí),看看深度學(xué)習(xí)是否能揭示一種關(guān)系,可以在細(xì)胞周圍的盤子里測量的東西和病人身上發(fā)生的事情之間的關(guān)系。”

挑戰(zhàn)和警告

1.對數(shù)據(jù)質(zhì)量和數(shù)量的嚴(yán)格標(biāo)準(zhǔn)

研究人員警告說,深深度學(xué)習(xí)帶來了巨大的挑戰(zhàn)。就像任何計算生物學(xué)技術(shù)一樣,由算法產(chǎn)生的結(jié)果取決于輸入的數(shù)據(jù)。將模型與其訓(xùn)練數(shù)據(jù)過度匹配也是一個令人關(guān)注的問題。此外,對于深度學(xué)習(xí),數(shù)據(jù)數(shù)量和質(zhì)量的標(biāo)準(zhǔn)往往比一些實驗生物學(xué)家所預(yù)期的更嚴(yán)格。

深入學(xué)習(xí)算法需要非常大的數(shù)據(jù)集,這些數(shù)據(jù)集需要很好的標(biāo)注,這樣這些算法就可以學(xué)會識別特征和對模式進(jìn)行分類。更大、更清晰的數(shù)據(jù)集——數(shù)百萬個數(shù)據(jù)點代表著不同的實驗和生理條件——為研究人員提供了訓(xùn)練算法的最大靈活性。Finkbeiner指出,在其工作中的算法訓(xùn)練在大約15000例之后有了很大的改善。Carpenter說,這些高質(zhì)量的“真實”數(shù)據(jù)可能非常難以獲得。

為了規(guī)避這一挑戰(zhàn),研究人員一直在研究如何用更少的數(shù)據(jù)進(jìn)行更多訓(xùn)練。Carpenter說,底層算法的進(jìn)步使得神經(jīng)網(wǎng)絡(luò)能夠更有效地使用數(shù)據(jù),從而為一些應(yīng)用程序提供了對少數(shù)圖像的培訓(xùn)??茖W(xué)家還可以利用轉(zhuǎn)移學(xué)習(xí),即神經(jīng)網(wǎng)絡(luò)將從一種數(shù)據(jù)類型獲得的分類能力應(yīng)用到另一種數(shù)據(jù)類型的能力。例如,F(xiàn)inkbeiner的團(tuán)隊開發(fā)了一種算法,它最初教授的算法是根據(jù)形態(tài)學(xué)的變化來預(yù)測細(xì)胞死亡。雖然研究人員訓(xùn)練它來研究嚙齒動物細(xì)胞的圖像,但當(dāng)它第一次接觸到人類細(xì)胞的圖像時,它的準(zhǔn)確率達(dá)到了90%,隨著經(jīng)驗的積累,它的精確度提高到了99%。

對于一些生物圖像識別工作,谷歌加速科學(xué)使用的算法最初是用從互聯(lián)網(wǎng)上挖掘的數(shù)億張消費(fèi)者圖像進(jìn)行訓(xùn)練的。然后,研究人員改進(jìn)了這種訓(xùn)練,只使用了幾百張與他們想要研究的相似的生物圖像。

深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)

2.計算機(jī)缺乏判斷力

深入學(xué)習(xí)的另一個挑戰(zhàn)是計算機(jī)“不聰明、又懶惰”,谷歌加速科學(xué)的研究科學(xué)家Michelle Dimon指出,它們缺乏區(qū)分生物相關(guān)性差異和正常變異的判斷力?!斑@臺電腦在發(fā)現(xiàn)批量變異方面有驚人的出色表現(xiàn)?!彼f。因此,獲取將被輸入深入學(xué)習(xí)算法的數(shù)據(jù),通常意味著為實驗設(shè)計和控制應(yīng)用一個高標(biāo)準(zhǔn)。谷歌加速科學(xué)要求研究人員在細(xì)胞培養(yǎng)板上隨機(jī)設(shè)置控制裝置,以考慮諸如孵化器溫度等微妙的環(huán)境因素,并使用是一般生物學(xué)家可能使用的兩倍的控制量。

Dimon說,這一風(fēng)險突出了生物學(xué)家和計算機(jī)科學(xué)家共同努力、設(shè)計包含深度學(xué)習(xí)的實驗的重要性。對于谷歌最近的一個項目:Contour,這種精心設(shè)計變得更加重要。這是一種將細(xì)胞成像數(shù)據(jù)集中在一起的策略,它突出趨勢(比如劑量反應(yīng)),而不是將它們歸入特定類別(如活細(xì)胞或死細(xì)胞)。

Greene警告說,盡管深度學(xué)習(xí)算法可以在沒有人類先入之見和過濾器的情況下對數(shù)據(jù)進(jìn)行評估,但這并不意味著它們是無偏見的。訓(xùn)練數(shù)據(jù)可能會被扭曲——例如,當(dāng)只使用北歐人的基因組數(shù)據(jù)時,就會出現(xiàn)這種情況。對這些數(shù)據(jù)進(jìn)行深入學(xué)習(xí)的算法將獲得嵌入性偏見,并將其反映在預(yù)測中,這反過來可能導(dǎo)致不平等的病人護(hù)理。如果人類幫助驗證這些預(yù)測,這就提供了對問題的潛在檢查。但是,如果僅靠電腦來做關(guān)鍵決定,這種擔(dān)憂會令人感到不安。Greene說:“把這些方法看作是增強(qiáng)人類力量的一種方式,比把這些方法看作是取代人類的方法要好。”

深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)

3.算法難以解釋清楚

還有一個挑戰(zhàn),就是如何準(zhǔn)確地理解這些算法是如何構(gòu)建特征或特性的,而這些特性首先是用來分類數(shù)據(jù)的。位于馬里蘭州巴爾的摩Insilo Medicine的研究科學(xué)家Polina Mamoshina說,計算機(jī)科學(xué)家正在通過改變或調(diào)整模型中的個體特征來解決這個問題,然后研究這些調(diào)整如何改變預(yù)測的準(zhǔn)確性。但是不同的神經(jīng)網(wǎng)絡(luò)在處理相同的問題時不會以同樣的方式來處理,Greene警告說,研究人員正越來越多地關(guān)注那些既準(zhǔn)確又可以解釋的預(yù)測的算法,但就目前而言,這些系統(tǒng)仍然是黑匣子。

Greene說:“我認(rèn)為2018年能被解釋得很清楚的深度學(xué)習(xí)模式并不會出現(xiàn),盡管我很希望我錯了。”

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-03-06
深度學(xué)習(xí)在生物學(xué)上有哪些應(yīng)用?(下)
高層速讀關(guān)鍵信息:1 生物學(xué)與人工智能相結(jié)合,可以預(yù)測和治療疾病,發(fā)現(xiàn)新藥物,為疾病尋找新治療方法,等等;2 這樣的研究也有一定挑戰(zhàn)性。

長按掃碼 閱讀全文