圖片來(lái)源:intel官網(wǎng)
關(guān)注中國(guó)醫(yī)藥行業(yè)發(fā)展動(dòng)態(tài)的人可能都還記得:2021年6月經(jīng)國(guó)家食藥監(jiān)管理局批準(zhǔn)上市的某新型靶向療法,曾在社會(huì)上引起長(zhǎng)時(shí)間的關(guān)注與熱議。大家的好奇心和討論焦點(diǎn),不僅僅在于它在臨床實(shí)踐中體現(xiàn)出的療效是否符合預(yù)期,還有一個(gè)關(guān)鍵詞,也頻頻出現(xiàn)在各類相關(guān)新聞報(bào)道中,那就是“120萬(wàn)一針”。
一款新藥的使用成本為何會(huì)如此昂貴?這就不得不提及醫(yī)藥研發(fā)領(lǐng)域的一個(gè)經(jīng)典說(shuō)法:“十年+十億美金”,它表明一款新藥的開發(fā),不僅周期漫長(zhǎng)、成本高昂,而且成功率低。但與此同時(shí),世界上還有30000多種疾病,尚未找到對(duì)癥的藥物。因此讓更多患者有藥可醫(yī),這是強(qiáng)勁的社會(huì)剛需,也是醫(yī)學(xué)界的目標(biāo)所在。
所幸的是,大數(shù)據(jù)與人工智能(Artificial Intelligence,AI)的興起,正讓新藥的研發(fā)走出這個(gè)“雙十”困局,使藥物研發(fā)的進(jìn)度得以加速,成功率得以提高,同時(shí)成本也得以大大降低。
01、新藥研發(fā)搭上AI快車
AI對(duì)比人腦有著“做得更快、更準(zhǔn)確”的先天優(yōu)勢(shì),可以高效地完成各個(gè)領(lǐng)域中繁重復(fù)雜的工作,進(jìn)而向著更加困難和更有意義的目標(biāo)前進(jìn)。AI領(lǐng)域的開創(chuàng)者之一尼爾斯·約翰·尼爾森教授曾經(jīng)對(duì)AI下了這樣一個(gè)定義:“人工智能是關(guān)于知識(shí)的學(xué)科”,這意味著AI自誕生以來(lái),便肩負(fù)著推動(dòng)人類科學(xué)發(fā)展的重任。
圖片來(lái)源:intel官網(wǎng)
因此這也不難解釋,為何當(dāng)前在各個(gè)科學(xué)領(lǐng)域的前沿研究中,幾乎每一次重大突破的背后都有著AI的身影。比如今天要談的,在生命科學(xué)領(lǐng)域當(dāng)中非常具有挑戰(zhàn)性,被人用“九死一生”來(lái)形容的新藥研發(fā)過(guò)程。
塔夫茨藥物開發(fā)研究中心提供的數(shù)據(jù)顯示,開發(fā)一個(gè)新藥的平均成本大約為26億美元。一般需要12-15年的時(shí)間才能將一個(gè)新藥從試驗(yàn)室走入市場(chǎng)。不僅如此,5000個(gè)臨床前化合物大約只有5個(gè)化合物可以進(jìn)入臨床試驗(yàn),最終只有一個(gè)才能被批準(zhǔn)用于臨床治療,成為真正的藥物。
如今,隨著大數(shù)據(jù)、AI技術(shù)滲透到生產(chǎn)生活的各個(gè)領(lǐng)域,醫(yī)藥行業(yè)也開始借助包括AI在內(nèi)的新技術(shù),用更經(jīng)濟(jì)、更有針對(duì)性的方法開發(fā)新藥。最近10年,隨著云計(jì)算等大規(guī)模算力的普及,以及以深度學(xué)習(xí)為代表的AI算法在多個(gè)領(lǐng)域的快速發(fā)展和應(yīng)用,AI開始在藥物研發(fā)的各個(gè)關(guān)鍵環(huán)節(jié)發(fā)揮越來(lái)越重要的作用。
來(lái)自TechEmergence的報(bào)告顯示,AI可以將新藥研發(fā)的成功率提高16.7%,AI輔助藥物研發(fā)每年能夠?yàn)樗幤蠊?jié)約540億美元的研發(fā)費(fèi)用,并在研發(fā)主要環(huán)節(jié)節(jié)約40%至60%的時(shí)間成本。
另?yè)?jù)2020年6月發(fā)表于Drug Discovery Today雜志的文章顯示,21家頭部跨國(guó)藥企在2014-2019年共發(fā)表398篇與“AI藥物研發(fā)”相關(guān)的論文,同時(shí)啟動(dòng)了73項(xiàng)內(nèi)部AI研發(fā)項(xiàng)目、61項(xiàng)與外部AI公司合作的項(xiàng)目、以及11項(xiàng)對(duì)初創(chuàng)AI企業(yè)的投資或收購(gòu)。
從類似這樣的、越來(lái)越多的投入和案例中可以看到,AI已經(jīng)成為助力藥物研發(fā)模式升級(jí)的一個(gè)關(guān)鍵因素。
02、從蛋白質(zhì)結(jié)構(gòu)打開攻克疾病的缺口
蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者,人類身體內(nèi)的任何功能,從催化化學(xué)反應(yīng)到抵御外來(lái)侵略都是蛋白質(zhì)作用的結(jié)果,在氨基酸根據(jù)基因表達(dá)的信息形成一條多肽鏈之后,必須折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學(xué)功能。如果在折疊過(guò)程中出現(xiàn)故障,形成錯(cuò)誤的空間結(jié)構(gòu),不但將喪失其生物學(xué)功能,還會(huì)引起各種疾病。
對(duì)蛋白質(zhì)三維結(jié)構(gòu)開展有效解析與預(yù)測(cè),就能對(duì)有機(jī)體的構(gòu)成,以及運(yùn)行和變化的規(guī)律實(shí)施更深層次的詮釋和探究,進(jìn)而可為生物學(xué)、醫(yī)學(xué)、藥學(xué)乃至農(nóng)業(yè)、畜牧業(yè)等行業(yè)和領(lǐng)域的未來(lái)研究與發(fā)展提供高質(zhì)量的生物學(xué)假設(shè)。
為了解蛋白質(zhì)的結(jié)構(gòu),傳統(tǒng)的實(shí)驗(yàn)方法是使用X光、冷凍電鏡等方法對(duì)蛋白進(jìn)行拍照,每一個(gè)樣品可能需要幾個(gè)月,甚至于幾年的時(shí)間,才能夠高精度地完成拍照。在國(guó)際深具影響力的SwissProt數(shù)據(jù)庫(kù)上,累計(jì)的蛋白序列的信息已經(jīng)達(dá)到了56萬(wàn)之多,傳統(tǒng)的實(shí)驗(yàn)方法很難去滿足幾十萬(wàn)量級(jí)甚至于未來(lái)幾百萬(wàn)量級(jí)的蛋白序列結(jié)構(gòu)解析的需求。
圖片來(lái)源:intel官網(wǎng)
在這個(gè)時(shí)候,AI開始發(fā)揮神奇的作用。
2020年,在第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上,DeepMind研發(fā)的AlphaFold2成功根據(jù)基因序列預(yù)測(cè)了生命基本分子——蛋白質(zhì)的三維結(jié)構(gòu),取得了中位分?jǐn)?shù)為92.4(滿分100分)的好成績(jī),比第二名高25分,打敗了所有競(jìng)爭(zhēng)對(duì)手。
一般來(lái)說(shuō),AI方法的預(yù)測(cè)精度超過(guò)90分,可認(rèn)為預(yù)測(cè)結(jié)果與實(shí)驗(yàn)方法得到的蛋白質(zhì)結(jié)構(gòu)基本一致。這一突破,標(biāo)志著AI輔助藥物開發(fā)的基礎(chǔ)理論研究和實(shí)踐進(jìn)入新的階段。
AlphaFold2,憑借自身在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上的高可信度,以及遠(yuǎn)優(yōu)于傳統(tǒng)實(shí)驗(yàn)方法的效率和成本表現(xiàn),樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學(xué)領(lǐng)域掀起了顛覆式的革新,也成為了AI在生物學(xué)、醫(yī)學(xué)和藥學(xué)等領(lǐng)域落地的核心發(fā)力點(diǎn)。
這從中國(guó)科學(xué)院院士施一公評(píng)價(jià)AlphaFold2“這是人工智能對(duì)科學(xué)領(lǐng)域最大的一次貢獻(xiàn),也是人類在21世紀(jì)取得的最重要的科學(xué)突破之一”中可見一斑。
在英特爾和國(guó)際學(xué)術(shù)期刊《Science》聯(lián)合推出的《架構(gòu)師成長(zhǎng)計(jì)劃》課程中,來(lái)自中國(guó)智能化、自動(dòng)化藥物研發(fā)科技領(lǐng)域明星企業(yè)晶泰科技的首席研發(fā)科學(xué)家楊明俊博士這樣談到:“以AlphaFold2為代表的研究成果,被認(rèn)為是開拓了科學(xué)研究的第四范式,就是基于大量的數(shù)據(jù),然后采用以深度神經(jīng)網(wǎng)絡(luò)為代表的模型,給出對(duì)問(wèn)題的一個(gè)解答。”他說(shuō),“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)曾經(jīng)被認(rèn)為是不可能完成的一件事情,如今被AI算法實(shí)現(xiàn),這標(biāo)志著AI在生物醫(yī)藥領(lǐng)域的融合邁入了一個(gè)全新的階段,成為大勢(shì)所趨。”
03、AI找藥,需要什么樣的“加速器”
隨著越來(lái)越多的科研機(jī)構(gòu)、實(shí)驗(yàn)室和企業(yè)開始借助AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),各行業(yè)和領(lǐng)域內(nèi)的使用者也開始遇到越來(lái)越多、也漸趨嚴(yán)峻的挑戰(zhàn)。例如結(jié)構(gòu)預(yù)測(cè)各環(huán)節(jié)面臨著龐大的計(jì)算量,使用者需要更加充分地挖掘硬件的計(jì)算潛力來(lái)提升執(zhí)行效率;為縮短結(jié)構(gòu)預(yù)測(cè)時(shí)間,他們還需要利用更多計(jì)算節(jié)點(diǎn)來(lái)構(gòu)建效率更高的并行計(jì)算方案等。
英特爾人工智能架構(gòu)師楊威博士說(shuō),AlphaFold2可以高效率地去進(jìn)行一個(gè)蛋白結(jié)構(gòu)的解析,但是其原始實(shí)現(xiàn)其實(shí)存在兩方面的優(yōu)化空間。
一方面由于算法和硬件架構(gòu)本身的特點(diǎn),它強(qiáng)依賴于一些AI專用加速芯片的支持,但是這類硬件存在嚴(yán)重的內(nèi)存或顯存限制,使得它在單芯片或單卡情況下能夠預(yù)測(cè)的蛋白質(zhì)序列長(zhǎng)度較短(比如2000氨基酸長(zhǎng)度的蛋白,其內(nèi)存峰值將超過(guò)200GB)。另一方面,使用原始實(shí)現(xiàn)在CPU上進(jìn)行推理速度較慢,很難在可以接受的時(shí)間范圍內(nèi)完成高通量和長(zhǎng)序列的預(yù)測(cè)需求。
正因?yàn)橛羞@些限制,英特爾正在與眾多產(chǎn)、學(xué)、研領(lǐng)域的合作伙伴及客戶一起研究用內(nèi)存容量?jī)?yōu)勢(shì)更為明顯的CPU平臺(tái)來(lái)加速AlphaFold2,但即便如此,在AlphaFold2的嵌入層中也容易遇到兩個(gè)問(wèn)題:一方面是巨大的內(nèi)存峰值壓力,其需求量會(huì)使內(nèi)存資源在短時(shí)間耗盡,尤其是內(nèi)存峰值在相互疊加之后,進(jìn)而可能造成推理任務(wù)的失敗;另一方面,大張量運(yùn)算所需的海量?jī)?nèi)存也會(huì)帶來(lái)不可忽略的內(nèi)存分配過(guò)程,從而增加執(zhí)行耗時(shí)。
圖片來(lái)源:intel官網(wǎng)
通過(guò)對(duì)算法架構(gòu)的解析可知,AlphaFold2中大量的矩陣運(yùn)算過(guò)程都需要大容量?jī)?nèi)存予以支撐。其最大輸入序列長(zhǎng)度越長(zhǎng),計(jì)算中所需的內(nèi)存也就越大。而在并行計(jì)算能力得到有效優(yōu)化后,更多計(jì)算實(shí)例的加入也會(huì)進(jìn)一步突顯內(nèi)存瓶頸問(wèn)題。
如果用“星際探索”來(lái)比喻的話,對(duì)3GEH蛋白的結(jié)構(gòu)預(yù)測(cè)就相當(dāng)于探索地球;對(duì)某新型傳染病相關(guān)的刺突蛋白進(jìn)行結(jié)構(gòu)預(yù)測(cè)就相當(dāng)于將探索擴(kuò)大到了整個(gè)太陽(yáng)系,對(duì)諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)發(fā)現(xiàn)的PIEZO1/2蛋白的結(jié)構(gòu)預(yù)測(cè)則是進(jìn)一步將探索擴(kuò)展到了銀河系,對(duì)低密度脂蛋白受體相關(guān)蛋白2(LRP2)的結(jié)構(gòu)預(yù)測(cè),就相當(dāng)于探索宇宙了。
在實(shí)踐中,進(jìn)行3GEH蛋白(長(zhǎng)度為765aa)的結(jié)構(gòu)預(yù)測(cè),內(nèi)存大小滿足96GB就足以。而對(duì)Spike蛋白和PIEZO2蛋白進(jìn)行預(yù)測(cè)時(shí),由于序列長(zhǎng)度分別達(dá)到了1200aa和2700aa,就需要部署大于512GB的內(nèi)存。而當(dāng)人們對(duì)LRP2蛋白進(jìn)行預(yù)測(cè)時(shí),其4700aa的序列長(zhǎng)度要求的內(nèi)存就遠(yuǎn)大于1.3TB。如果64個(gè)實(shí)例并行執(zhí)行,內(nèi)存容量的需求更是會(huì)沖到一個(gè)令人驚嘆的量級(jí),如果內(nèi)存系統(tǒng)無(wú)法滿足這個(gè)需求,就會(huì)形成阻礙應(yīng)用效能發(fā)揮的“內(nèi)存墻”。
一直活躍在“AI for Science”創(chuàng)新前沿的英特爾結(jié)合自身優(yōu)勢(shì),以內(nèi)置AI加速能力的產(chǎn)品技術(shù),特別是至強(qiáng)® 可擴(kuò)展平臺(tái)和傲騰™ 持久內(nèi)存的組合,在CPU平臺(tái)上更便捷地提供了TB級(jí)的內(nèi)存支持,打破了“內(nèi)存墻“,對(duì)AlphaFold2實(shí)施了端到端的高通量?jī)?yōu)化,在實(shí)踐中實(shí)現(xiàn)了比專用AI加速芯片更為出色的表現(xiàn),累計(jì)通量提升可達(dá)優(yōu)化前的23.11倍。
在這個(gè)全新的加速方案中,第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器也憑借出色的微架構(gòu)設(shè)計(jì),尤其是多核心、多線程和大容量高速緩存,為AlphaFold2提供了充足的總體算力,以滿足整個(gè)結(jié)構(gòu)預(yù)測(cè)過(guò)程所需;另一方面,這款處理器內(nèi)置的英特爾® AVX-512技術(shù),也能在英特爾® oneAPI 相關(guān)軟件優(yōu)化工具的激活下,輸出額外的并行計(jì)算加速支持,為方案提供更進(jìn)一步的性能調(diào)優(yōu)空間。
這個(gè)加速方案的實(shí)驗(yàn)結(jié)果顯示,對(duì)于一個(gè)含有765氨基酸的蛋白質(zhì)測(cè)試樣例,在64個(gè)物理核同時(shí)并發(fā)的情況下,最高的內(nèi)存消耗達(dá)到3.2TB,其測(cè)試通量可從未經(jīng)任何優(yōu)化的4.56序列/天,達(dá)到優(yōu)化后的105.35序列/天。而且如果在單節(jié)點(diǎn)上配備最高8TB內(nèi)存的話,就可以支持完成高于1萬(wàn)氨基酸序列長(zhǎng)度下蛋白結(jié)構(gòu)的預(yù)測(cè)。
從這個(gè)結(jié)果展開思考,就會(huì)發(fā)現(xiàn):通常情況下,雖然在需要圍繞大規(guī)模的訓(xùn)練以及算法的迭代更新時(shí),各類專用AI加速芯片會(huì)作為固定演員扮演既有角色,但是這也意味著,所有入場(chǎng)者都需要為這種異構(gòu)平臺(tái)的建設(shè)和充分利用投入更多的財(cái)力并加強(qiáng)相關(guān)人才儲(chǔ)備。
但如果是僅僅利用成熟的算法模型來(lái)做推理,用以支持科研項(xiàng)目的開展而非算法本身的演進(jìn)呢?或者是已經(jīng)擁有了異構(gòu)平臺(tái),但一直難以突破蛋白質(zhì)預(yù)測(cè)長(zhǎng)序的限制呢?CPU+大內(nèi)存的方案在這些場(chǎng)景下就有更為明顯、甚至是獨(dú)特的優(yōu)勢(shì)了。
換言之,這就相當(dāng)于所有相關(guān)行業(yè)和領(lǐng)域的從業(yè)者們自此有了更多也更為靈活的選擇,他們既可以選擇較為復(fù)雜的異構(gòu)平臺(tái)來(lái)探究AI算法的巔峰或極限,也可以借助更為普及、也更易于獲取和使用的通用平臺(tái)作為科研實(shí)踐的加速器。當(dāng)然,后者這些天然優(yōu)勢(shì),也會(huì)降低AI在醫(yī)藥和生命科學(xué)領(lǐng)域落地的門檻,讓更多從業(yè)者能夠搭上AI for Science或AI找藥的“快車”。
04、給科研送上“神助攻” 不止是AI
為推動(dòng)生命科學(xué)這一前沿科研領(lǐng)域中的相關(guān)應(yīng)用落地,《“十四五”生物經(jīng)濟(jì)發(fā)展規(guī)劃》提出要開展前沿生物技術(shù)創(chuàng)新,突破高通量篩選、高效表達(dá)、精準(zhǔn)調(diào)控等關(guān)鍵技術(shù),推動(dòng)在新藥開發(fā)、疾病治療等領(lǐng)域的應(yīng)用。
得益于AI技術(shù)的高速發(fā)展和演進(jìn),它與科學(xué)前沿研究的結(jié)合正在快速地改變世界并造福人們的生活。楊明俊博士說(shuō),AI藥物研發(fā)是一個(gè)新興的交叉學(xué)科,它不僅對(duì)生命醫(yī)藥行業(yè)產(chǎn)生深遠(yuǎn)的影響,也對(duì)提高人類壽命的長(zhǎng)度和質(zhì)量有重要意義,“讓AI流淌進(jìn)每一款新藥,讓患者更快地獲得有效治療。”
如今,中國(guó)生物醫(yī)藥行業(yè)經(jīng)歷了跟蹤仿制和模仿創(chuàng)新階段,正處在向源頭創(chuàng)新的更高階段邁進(jìn)。同時(shí)中國(guó)新藥創(chuàng)制核心競(jìng)爭(zhēng)力也在不斷得到提升,未來(lái)將會(huì)在全球研發(fā)中發(fā)揮更大的作用。
窺一斑而知全豹,盡管藥物研發(fā)只是生命科學(xué)領(lǐng)域中的一環(huán),但是這并不妨礙從中能夠看到AI和傳統(tǒng)科研結(jié)合帶來(lái)的巨大潛能,從而深刻地理解“AI for Science”為何能成為當(dāng)前的重要趨勢(shì)。而更加重要,也更需要重視的是,除AI之外,大數(shù)據(jù)和HPC也曾經(jīng)和正在推進(jìn)著類似的范式革命,驅(qū)動(dòng)著重大的科學(xué)探索及發(fā)現(xiàn)。而位處算力創(chuàng)新源頭,產(chǎn)品涵蓋計(jì)算、存儲(chǔ)和通信等多個(gè)維度的英特爾,也正通過(guò)構(gòu)建全面且均衡的計(jì)算平臺(tái),基于軟硬件之間的無(wú)縫組合與高效協(xié)作,以及多樣化的優(yōu)化方法,在滿足各方面需求的同時(shí),通過(guò)聯(lián)合產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的合作伙伴,致力于給科學(xué)研究送上更多神助攻,促發(fā)更多前沿領(lǐng)域的科研新發(fā)現(xiàn)。
原文鏈接:https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/alphafold2-throughput-improvement-optimization.html
架構(gòu)師成長(zhǎng)計(jì)劃鏈接:https://bizwebcast.intel.cn/wap/eventstart.aspx?eid=328&tc=12m0u5kiss&frm=wechatkol
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )