123,123

圖片來(lái)源：intel官網(wǎng)

關(guān)注中國(guó)醫(yī)藥行業(yè)發(fā)展動(dòng)態(tài)的人可能都還記得：2021年6月經(jīng)國(guó)家食藥監(jiān)管理局批準(zhǔn)上市的某新型靶向療法，曾在社會(huì)上引起長(zhǎng)時(shí)間的關(guān)注與熱議。大家的好奇心和討論焦點(diǎn)，不僅僅在于它在臨床實(shí)踐中體現(xiàn)出的療效是否符合預(yù)期，還有一個(gè)關(guān)鍵詞，也頻頻出現(xiàn)在各類相關(guān)新聞報(bào)道中，那就是“120萬(wàn)一針”。

一款新藥的使用成本為何會(huì)如此昂貴?這就不得不提及醫(yī)藥研發(fā)領(lǐng)域的一個(gè)經(jīng)典說(shuō)法：“十年+十億美金”，它表明一款新藥的開發(fā)，不僅周期漫長(zhǎng)、成本高昂，而且成功率低。但與此同時(shí)，世界上還有30000多種疾病，尚未找到對(duì)癥的藥物。因此讓更多患者有藥可醫(yī)，這是強(qiáng)勁的社會(huì)剛需，也是醫(yī)學(xué)界的目標(biāo)所在。

所幸的是，大數(shù)據(jù)與人工智能(Artificial Intelligence，AI)的興起，正讓新藥的研發(fā)走出這個(gè)“雙十”困局，使藥物研發(fā)的進(jìn)度得以加速，成功率得以提高，同時(shí)成本也得以大大降低。

01、新藥研發(fā)搭上AI快車

AI對(duì)比人腦有著“做得更快、更準(zhǔn)確”的先天優(yōu)勢(shì)，可以高效地完成各個(gè)領(lǐng)域中繁重復(fù)雜的工作，進(jìn)而向著更加困難和更有意義的目標(biāo)前進(jìn)。AI領(lǐng)域的開創(chuàng)者之一尼爾斯·約翰·尼爾森教授曾經(jīng)對(duì)AI下了這樣一個(gè)定義：“人工智能是關(guān)于知識(shí)的學(xué)科”，這意味著AI自誕生以來(lái)，便肩負(fù)著推動(dòng)人類科學(xué)發(fā)展的重任。

圖片來(lái)源：intel官網(wǎng)

因此這也不難解釋，為何當(dāng)前在各個(gè)科學(xué)領(lǐng)域的前沿研究中，幾乎每一次重大突破的背后都有著AI的身影。比如今天要談的，在生命科學(xué)領(lǐng)域當(dāng)中非常具有挑戰(zhàn)性，被人用“九死一生”來(lái)形容的新藥研發(fā)過程。

塔夫茨藥物開發(fā)研究中心提供的數(shù)據(jù)顯示，開發(fā)一個(gè)新藥的平均成本大約為26億美元。一般需要12-15年的時(shí)間才能將一個(gè)新藥從試驗(yàn)室走入市場(chǎng)。不僅如此，5000個(gè)臨床前化合物大約只有5個(gè)化合物可以進(jìn)入臨床試驗(yàn)，最終只有一個(gè)才能被批準(zhǔn)用于臨床治療，成為真正的藥物。

如今，隨著大數(shù)據(jù)、AI技術(shù)滲透到生產(chǎn)生活的各個(gè)領(lǐng)域，醫(yī)藥行業(yè)也開始借助包括AI在內(nèi)的新技術(shù)，用更經(jīng)濟(jì)、更有針對(duì)性的方法開發(fā)新藥。最近10年，隨著云計(jì)算等大規(guī)模算力的普及，以及以深度學(xué)習(xí)為代表的AI算法在多個(gè)領(lǐng)域的快速發(fā)展和應(yīng)用，AI開始在藥物研發(fā)的各個(gè)關(guān)鍵環(huán)節(jié)發(fā)揮越來(lái)越重要的作用。

來(lái)自TechEmergence的報(bào)告顯示，AI可以將新藥研發(fā)的成功率提高16.7%，AI輔助藥物研發(fā)每年能夠?yàn)樗幤蠊?jié)約540億美元的研發(fā)費(fèi)用，并在研發(fā)主要環(huán)節(jié)節(jié)約40%至60%的時(shí)間成本。

另?yè)?jù)2020年6月發(fā)表于Drug Discovery Today雜志的文章顯示，21家頭部跨國(guó)藥企在2014-2019年共發(fā)表398篇與“AI藥物研發(fā)”相關(guān)的論文，同時(shí)啟動(dòng)了73項(xiàng)內(nèi)部AI研發(fā)項(xiàng)目、61項(xiàng)與外部AI公司合作的項(xiàng)目、以及11項(xiàng)對(duì)初創(chuàng)AI企業(yè)的投資或收購(gòu)。

從類似這樣的、越來(lái)越多的投入和案例中可以看到，AI已經(jīng)成為助力藥物研發(fā)模式升級(jí)的一個(gè)關(guān)鍵因素。

02、從蛋白質(zhì)結(jié)構(gòu)打開攻克疾病的缺口

蛋白質(zhì)是生物體內(nèi)一切功能的執(zhí)行者，人類身體內(nèi)的任何功能，從催化化學(xué)反應(yīng)到抵御外來(lái)侵略都是蛋白質(zhì)作用的結(jié)果，在氨基酸根據(jù)基因表達(dá)的信息形成一條多肽鏈之后，必須折疊形成正確的三維空間結(jié)構(gòu)才可能具有正常的生物學(xué)功能。如果在折疊過程中出現(xiàn)故障，形成錯(cuò)誤的空間結(jié)構(gòu)，不但將喪失其生物學(xué)功能，還會(huì)引起各種疾病。

對(duì)蛋白質(zhì)三維結(jié)構(gòu)開展有效解析與預(yù)測(cè)，就能對(duì)有機(jī)體的構(gòu)成，以及運(yùn)行和變化的規(guī)律實(shí)施更深層次的詮釋和探究，進(jìn)而可為生物學(xué)、醫(yī)學(xué)、藥學(xué)乃至農(nóng)業(yè)、畜牧業(yè)等行業(yè)和領(lǐng)域的未來(lái)研究與發(fā)展提供高質(zhì)量的生物學(xué)假設(shè)。

為了解蛋白質(zhì)的結(jié)構(gòu)，傳統(tǒng)的實(shí)驗(yàn)方法是使用X光、冷凍電鏡等方法對(duì)蛋白進(jìn)行拍照，每一個(gè)樣品可能需要幾個(gè)月，甚至于幾年的時(shí)間，才能夠高精度地完成拍照。在國(guó)際深具影響力的SwissProt數(shù)據(jù)庫(kù)上，累計(jì)的蛋白序列的信息已經(jīng)達(dá)到了56萬(wàn)之多，傳統(tǒng)的實(shí)驗(yàn)方法很難去滿足幾十萬(wàn)量級(jí)甚至于未來(lái)幾百萬(wàn)量級(jí)的蛋白序列結(jié)構(gòu)解析的需求。

圖片來(lái)源：intel官網(wǎng)

在這個(gè)時(shí)候，AI開始發(fā)揮神奇的作用。

2020年，在第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)上，DeepMind研發(fā)的AlphaFold2成功根據(jù)基因序列預(yù)測(cè)了生命基本分子——蛋白質(zhì)的三維結(jié)構(gòu)，取得了中位分?jǐn)?shù)為92.4(滿分100分)的好成績(jī)，比第二名高25分，打敗了所有競(jìng)爭(zhēng)對(duì)手。

一般來(lái)說(shuō)，AI方法的預(yù)測(cè)精度超過90分，可認(rèn)為預(yù)測(cè)結(jié)果與實(shí)驗(yàn)方法得到的蛋白質(zhì)結(jié)構(gòu)基本一致。這一突破，標(biāo)志著AI輔助藥物開發(fā)的基礎(chǔ)理論研究和實(shí)踐進(jìn)入新的階段。

AlphaFold2，憑借自身在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上的高可信度，以及遠(yuǎn)優(yōu)于傳統(tǒng)實(shí)驗(yàn)方法的效率和成本表現(xiàn)，樹起了一座“AI for Science”的全新里程碑。它不僅在生命科學(xué)領(lǐng)域掀起了顛覆式的革新，也成為了AI在生物學(xué)、醫(yī)學(xué)和藥學(xué)等領(lǐng)域落地的核心發(fā)力點(diǎn)。

這從中國(guó)科學(xué)院院士施一公評(píng)價(jià)AlphaFold2“這是人工智能對(duì)科學(xué)領(lǐng)域最大的一次貢獻(xiàn)，也是人類在21世紀(jì)取得的最重要的科學(xué)突破之一”中可見一斑。

在英特爾和國(guó)際學(xué)術(shù)期刊《Science》聯(lián)合推出的《架構(gòu)師成長(zhǎng)計(jì)劃》課程中，來(lái)自中國(guó)智能化、自動(dòng)化藥物研發(fā)科技領(lǐng)域明星企業(yè)晶泰科技的首席研發(fā)科學(xué)家楊明俊博士這樣談到：“以AlphaFold2為代表的研究成果，被認(rèn)為是開拓了科學(xué)研究的第四范式，就是基于大量的數(shù)據(jù)，然后采用以深度神經(jīng)網(wǎng)絡(luò)為代表的模型，給出對(duì)問題的一個(gè)解答。”他說(shuō)，“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)曾經(jīng)被認(rèn)為是不可能完成的一件事情，如今被AI算法實(shí)現(xiàn)，這標(biāo)志著AI在生物醫(yī)藥領(lǐng)域的融合邁入了一個(gè)全新的階段，成為大勢(shì)所趨。”

03、AI找藥，需要什么樣的“加速器”

隨著越來(lái)越多的科研機(jī)構(gòu)、實(shí)驗(yàn)室和企業(yè)開始借助AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，各行業(yè)和領(lǐng)域內(nèi)的使用者也開始遇到越來(lái)越多、也漸趨嚴(yán)峻的挑戰(zhàn)。例如結(jié)構(gòu)預(yù)測(cè)各環(huán)節(jié)面臨著龐大的計(jì)算量，使用者需要更加充分地挖掘硬件的計(jì)算潛力來(lái)提升執(zhí)行效率;為縮短結(jié)構(gòu)預(yù)測(cè)時(shí)間，他們還需要利用更多計(jì)算節(jié)點(diǎn)來(lái)構(gòu)建效率更高的并行計(jì)算方案等。

英特爾人工智能架構(gòu)師楊威博士說(shuō)，AlphaFold2可以高效率地去進(jìn)行一個(gè)蛋白結(jié)構(gòu)的解析，但是其原始實(shí)現(xiàn)其實(shí)存在兩方面的優(yōu)化空間。

一方面由于算法和硬件架構(gòu)本身的特點(diǎn)，它強(qiáng)依賴于一些AI專用加速芯片的支持，但是這類硬件存在嚴(yán)重的內(nèi)存或顯存限制，使得它在單芯片或單卡情況下能夠預(yù)測(cè)的蛋白質(zhì)序列長(zhǎng)度較短(比如2000氨基酸長(zhǎng)度的蛋白，其內(nèi)存峰值將超過200GB)。另一方面，使用原始實(shí)現(xiàn)在CPU上進(jìn)行推理速度較慢，很難在可以接受的時(shí)間范圍內(nèi)完成高通量和長(zhǎng)序列的預(yù)測(cè)需求。

正因?yàn)橛羞@些限制，英特爾正在與眾多產(chǎn)、學(xué)、研領(lǐng)域的合作伙伴及客戶一起研究用內(nèi)存容量?jī)?yōu)勢(shì)更為明顯的CPU平臺(tái)來(lái)加速AlphaFold2，但即便如此，在AlphaFold2的嵌入層中也容易遇到兩個(gè)問題：一方面是巨大的內(nèi)存峰值壓力，其需求量會(huì)使內(nèi)存資源在短時(shí)間耗盡，尤其是內(nèi)存峰值在相互疊加之后，進(jìn)而可能造成推理任務(wù)的失敗;另一方面，大張量運(yùn)算所需的海量?jī)?nèi)存也會(huì)帶來(lái)不可忽略的內(nèi)存分配過程，從而增加執(zhí)行耗時(shí)。

圖片來(lái)源：intel官網(wǎng)

通過對(duì)算法架構(gòu)的解析可知，AlphaFold2中大量的矩陣運(yùn)算過程都需要大容量?jī)?nèi)存予以支撐。其最大輸入序列長(zhǎng)度越長(zhǎng)，計(jì)算中所需的內(nèi)存也就越大。而在并行計(jì)算能力得到有效優(yōu)化后，更多計(jì)算實(shí)例的加入也會(huì)進(jìn)一步突顯內(nèi)存瓶頸問題。

如果用“星際探索”來(lái)比喻的話，對(duì)3GEH蛋白的結(jié)構(gòu)預(yù)測(cè)就相當(dāng)于探索地球;對(duì)某新型傳染病相關(guān)的刺突蛋白進(jìn)行結(jié)構(gòu)預(yù)測(cè)就相當(dāng)于將探索擴(kuò)大到了整個(gè)太陽(yáng)系，對(duì)諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)發(fā)現(xiàn)的PIEZO1/2蛋白的結(jié)構(gòu)預(yù)測(cè)則是進(jìn)一步將探索擴(kuò)展到了銀河系，對(duì)低密度脂蛋白受體相關(guān)蛋白2(LRP2)的結(jié)構(gòu)預(yù)測(cè)，就相當(dāng)于探索宇宙了。

在實(shí)踐中，進(jìn)行3GEH蛋白(長(zhǎng)度為765aa)的結(jié)構(gòu)預(yù)測(cè)，內(nèi)存大小滿足96GB就足以。而對(duì)Spike蛋白和PIEZO2蛋白進(jìn)行預(yù)測(cè)時(shí)，由于序列長(zhǎng)度分別達(dá)到了1200aa和2700aa，就需要部署大于512GB的內(nèi)存。而當(dāng)人們對(duì)LRP2蛋白進(jìn)行預(yù)測(cè)時(shí)，其4700aa的序列長(zhǎng)度要求的內(nèi)存就遠(yuǎn)大于1.3TB。如果64個(gè)實(shí)例并行執(zhí)行，內(nèi)存容量的需求更是會(huì)沖到一個(gè)令人驚嘆的量級(jí)，如果內(nèi)存系統(tǒng)無(wú)法滿足這個(gè)需求，就會(huì)形成阻礙應(yīng)用效能發(fā)揮的“內(nèi)存墻”。

一直活躍在“AI for Science”創(chuàng)新前沿的英特爾結(jié)合自身優(yōu)勢(shì)，以內(nèi)置AI加速能力的產(chǎn)品技術(shù)，特別是至強(qiáng)® 可擴(kuò)展平臺(tái)和傲騰™ 持久內(nèi)存的組合，在CPU平臺(tái)上更便捷地提供了TB級(jí)的內(nèi)存支持，打破了“內(nèi)存墻“，對(duì)AlphaFold2實(shí)施了端到端的高通量?jī)?yōu)化，在實(shí)踐中實(shí)現(xiàn)了比專用AI加速芯片更為出色的表現(xiàn)，累計(jì)通量提升可達(dá)優(yōu)化前的23.11倍。

在這個(gè)全新的加速方案中，第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器也憑借出色的微架構(gòu)設(shè)計(jì)，尤其是多核心、多線程和大容量高速緩存，為AlphaFold2提供了充足的總體算力，以滿足整個(gè)結(jié)構(gòu)預(yù)測(cè)過程所需;另一方面，這款處理器內(nèi)置的英特爾® AVX-512技術(shù)，也能在英特爾® oneAPI 相關(guān)軟件優(yōu)化工具的激活下，輸出額外的并行計(jì)算加速支持，為方案提供更進(jìn)一步的性能調(diào)優(yōu)空間。

這個(gè)加速方案的實(shí)驗(yàn)結(jié)果顯示，對(duì)于一個(gè)含有765氨基酸的蛋白質(zhì)測(cè)試樣例，在64個(gè)物理核同時(shí)并發(fā)的情況下，最高的內(nèi)存消耗達(dá)到3.2TB，其測(cè)試通量可從未經(jīng)任何優(yōu)化的4.56序列/天，達(dá)到優(yōu)化后的105.35序列/天。而且如果在單節(jié)點(diǎn)上配備最高8TB內(nèi)存的話，就可以支持完成高于1萬(wàn)氨基酸序列長(zhǎng)度下蛋白結(jié)構(gòu)的預(yù)測(cè)。

從這個(gè)結(jié)果展開思考，就會(huì)發(fā)現(xiàn)：通常情況下，雖然在需要圍繞大規(guī)模的訓(xùn)練以及算法的迭代更新時(shí)，各類專用AI加速芯片會(huì)作為固定演員扮演既有角色，但是這也意味著，所有入場(chǎng)者都需要為這種異構(gòu)平臺(tái)的建設(shè)和充分利用投入更多的財(cái)力并加強(qiáng)相關(guān)人才儲(chǔ)備。

但如果是僅僅利用成熟的算法模型來(lái)做推理，用以支持科研項(xiàng)目的開展而非算法本身的演進(jìn)呢?或者是已經(jīng)擁有了異構(gòu)平臺(tái)，但一直難以突破蛋白質(zhì)預(yù)測(cè)長(zhǎng)序的限制呢?CPU+大內(nèi)存的方案在這些場(chǎng)景下就有更為明顯、甚至是獨(dú)特的優(yōu)勢(shì)了。

換言之，這就相當(dāng)于所有相關(guān)行業(yè)和領(lǐng)域的從業(yè)者們自此有了更多也更為靈活的選擇，他們既可以選擇較為復(fù)雜的異構(gòu)平臺(tái)來(lái)探究AI算法的巔峰或極限，也可以借助更為普及、也更易于獲取和使用的通用平臺(tái)作為科研實(shí)踐的加速器。當(dāng)然，后者這些天然優(yōu)勢(shì)，也會(huì)降低AI在醫(yī)藥和生命科學(xué)領(lǐng)域落地的門檻，讓更多從業(yè)者能夠搭上AI for Science或AI找藥的“快車”。

04、給科研送上“神助攻” 不止是AI

為推動(dòng)生命科學(xué)這一前沿科研領(lǐng)域中的相關(guān)應(yīng)用落地，《“十四五”生物經(jīng)濟(jì)發(fā)展規(guī)劃》提出要開展前沿生物技術(shù)創(chuàng)新，突破高通量篩選、高效表達(dá)、精準(zhǔn)調(diào)控等關(guān)鍵技術(shù)，推動(dòng)在新藥開發(fā)、疾病治療等領(lǐng)域的應(yīng)用。

得益于AI技術(shù)的高速發(fā)展和演進(jìn)，它與科學(xué)前沿研究的結(jié)合正在快速地改變世界并造福人們的生活。楊明俊博士說(shuō)，AI藥物研發(fā)是一個(gè)新興的交叉學(xué)科，它不僅對(duì)生命醫(yī)藥行業(yè)產(chǎn)生深遠(yuǎn)的影響，也對(duì)提高人類壽命的長(zhǎng)度和質(zhì)量有重要意義，“讓AI流淌進(jìn)每一款新藥，讓患者更快地獲得有效治療。”

如今，中國(guó)生物醫(yī)藥行業(yè)經(jīng)歷了跟蹤仿制和模仿創(chuàng)新階段，正處在向源頭創(chuàng)新的更高階段邁進(jìn)。同時(shí)中國(guó)新藥創(chuàng)制核心競(jìng)爭(zhēng)力也在不斷得到提升，未來(lái)將會(huì)在全球研發(fā)中發(fā)揮更大的作用。

窺一斑而知全豹，盡管藥物研發(fā)只是生命科學(xué)領(lǐng)域中的一環(huán)，但是這并不妨礙從中能夠看到AI和傳統(tǒng)科研結(jié)合帶來(lái)的巨大潛能，從而深刻地理解“AI for Science”為何能成為當(dāng)前的重要趨勢(shì)。而更加重要，也更需要重視的是，除AI之外，大數(shù)據(jù)和HPC也曾經(jīng)和正在推進(jìn)著類似的范式革命，驅(qū)動(dòng)著重大的科學(xué)探索及發(fā)現(xiàn)。而位處算力創(chuàng)新源頭，產(chǎn)品涵蓋計(jì)算、存儲(chǔ)和通信等多個(gè)維度的英特爾，也正通過構(gòu)建全面且均衡的計(jì)算平臺(tái)，基于軟硬件之間的無(wú)縫組合與高效協(xié)作，以及多樣化的優(yōu)化方法，在滿足各方面需求的同時(shí)，通過聯(lián)合產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)的合作伙伴，致力于給科學(xué)研究送上更多神助攻，促發(fā)更多前沿領(lǐng)域的科研新發(fā)現(xiàn)。

原文鏈接：https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/alphafold2-throughput-improvement-optimization.html

架構(gòu)師成長(zhǎng)計(jì)劃鏈接：https://bizwebcast.intel.cn/wap/eventstart.aspx?eid=328&tc=12m0u5kiss&frm=wechatkol

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

AI制藥領(lǐng)域迎風(fēng)口，看技術(shù)如何終結(jié)10年+10億美金鐵律?

AI制藥領(lǐng)域迎風(fēng)口，看技術(shù)如何終結(jié)10年+10億美金鐵律?