AI蛋白質(zhì)折疊:在生命宇宙中漫游,遠(yuǎn)眺生物經(jīng)濟的流光

在2000年出版的《劍橋世界食物史》(The Cambridge World History of Food)中,記載了一則軼事:1728年,意大利學(xué)者雅可布·貝卡利(Jacopo Beccari)宣布,發(fā)現(xiàn)白面粉中存在具有“動物物質(zhì)”全部特性的東西。他的處理方式,是將和好的生面團在水中揉搓清洗,除去細(xì)小的白色淀粉顆粒,剩下的就是粘性的面筋團,因為不知道它是從哪兒來的,人們就以為它來自動物。貝卡利認(rèn)為,這些“動物物質(zhì)”成分使得小麥特別有營養(yǎng)。作為一個整體,面粉并沒有表現(xiàn)出動物物質(zhì)特性,這是因為大量淀粉的存在掩蓋了面筋的性質(zhì)。

貝卡利的這一在現(xiàn)代人看起來無比粗糙的研究,卻在無意中為后代人開啟了一扇通往微觀生命世界的大門。在一個世紀(jì)后的1838年,荷蘭醫(yī)生蓋里特·穆爾德(Gerritt Mulder)發(fā)表文章稱,他分析過的所有重要的“動物物質(zhì)”都具有相同的基本組成:40個碳原子,62個氫原子,10個氮原子和12個氧原子,可以簡單地表示為C40H62N10O12。這些“動物物質(zhì)”表現(xiàn)出不同的性質(zhì),僅僅是因為依附于它們的硫或磷原子的個數(shù)。他以希臘海神普羅透斯(Proteus,具有預(yù)言能力,但會變換成各種形狀以逃避回答問題)為名,將其正式命名為“蛋白質(zhì)(protein)”。而經(jīng)過他的研究,初步認(rèn)定了蛋白質(zhì)是構(gòu)成動物和植物的基本物質(zhì)之一。

再往后的故事,如大家所知,20世紀(jì)人類開始從分子層面認(rèn)識和研究生命,除了DNA的秘密被揭曉,推動了生命科學(xué)領(lǐng)域的一次重大飛躍外,蛋白質(zhì)作為生命的物質(zhì)基礎(chǔ)、生命活動的主要承擔(dān)者的重要性也逐漸為科學(xué)家所發(fā)掘。而有關(guān)蛋白質(zhì)的研究,特別是關(guān)于其三維構(gòu)型的研究,在經(jīng)歷了很長一段時間緩慢的推進(jìn)之后,終于在21世紀(jì)的前二十年里,被AI一舉攻破,“AI蛋白質(zhì)折疊”成為生命科學(xué)領(lǐng)域乃至整個科學(xué)研究領(lǐng)域最重要的研究成果。

至此,一幅全新的生物經(jīng)濟畫卷在人們眼前逐漸展開:利用AI去設(shè)計蛋白質(zhì)(而不是在自然界中挑選蛋白質(zhì))、生產(chǎn)契合人類需求的蛋白質(zhì)產(chǎn)品,如藥物、食品、調(diào)味品、新材料、營養(yǎng)保健品、化妝品等,進(jìn)而推動現(xiàn)有以高污染、高耗能的化工原料為基礎(chǔ)的社會生產(chǎn)生活重心,向著新型的、綠色環(huán)保的、可持續(xù)發(fā)展的生物基社會轉(zhuǎn)變,成為當(dāng)下科學(xué)家和產(chǎn)業(yè)界孜孜不倦的追求。

再回到當(dāng)下,我們常說21世紀(jì)人類將航向兩個宇宙。一個宇宙向外,去往星空深處;一個宇宙向內(nèi),去往生命科學(xué)的奧秘。近年來中國航空航天工程的快速崛起,再次打開了停滯許久的人類探索太空宇宙的大門,而這艘名為“AI蛋白質(zhì)折疊”的宇宙飛船,同樣由中國學(xué)者按下了起飛的按鈕,也已經(jīng)沖出了人類探索生命宇宙的大氣層。

時值年中,正是一個階段性回顧與總結(jié)的時間,我們不妨一起回望,它是從何而來,如何發(fā)射升空,未來還將駛向何方。

讓我們回到開端,去重新了解一個我們無比熟悉又異常陌生的事物:蛋白質(zhì)。

之所以說熟悉,是因為“蛋白質(zhì)”在當(dāng)下這個生活條件富足的時代中,出現(xiàn)的頻次實在是太高了。各種關(guān)于飲食、保健的文章和視頻都會不停地告訴我們,某某產(chǎn)品中富含某種蛋白(質(zhì)),讓大家都知道蛋白質(zhì)是對身體十分重要的營養(yǎng)素。而說陌生,則是因為大多數(shù)人對于蛋白質(zhì)的作用、價值乃至深層次的運作機制其實不甚了解。

從生命科學(xué)的角度來說,蛋白質(zhì)是生命體內(nèi)四種主要大分子之一(另外三種分別是核酸、多糖和脂質(zhì))。在生命體內(nèi),DNA作為生命信息的載體,負(fù)責(zé)遺傳信息的存儲。圍繞它的研究、技術(shù)及應(yīng)用,構(gòu)成了20世紀(jì)人類生命科學(xué)領(lǐng)域最重大的進(jìn)步之一。而關(guān)于它的故事,從20世紀(jì)50年代雙螺旋結(jié)構(gòu)的發(fā)現(xiàn),到當(dāng)下各種新興醫(yī)療技術(shù)的誕生,人們已經(jīng)不再陌生。

但大家不甚了解的是,遺傳信息需要通過轉(zhuǎn)錄和翻譯形成蛋白質(zhì),才能在生命體中執(zhí)行各種功能。生長、發(fā)育、運動、遺傳、繁殖等在內(nèi)的一切生命活動都離不開蛋白質(zhì)的參與,包括組成生命體、輸送各類物質(zhì)、抵御病毒、消化食物、提供能量、調(diào)節(jié)激素等,它也因此被稱作“生命的物質(zhì)基礎(chǔ)”和“生命活動的主要承擔(dān)者”。

那么,蛋白質(zhì)如何能夠發(fā)揮如此多的作用?

答案在于,蛋白質(zhì)擁有豐富而復(fù)雜的空間結(jié)構(gòu),這些結(jié)構(gòu)決定了蛋白質(zhì)的功能。蛋白質(zhì)以氨基酸為基本組成單位,氨基酸的不同排列(即序列)以及在此基礎(chǔ)上的卷曲折疊,形成了特定的三維立體結(jié)構(gòu),進(jìn)而執(zhí)行不同的功能。人類現(xiàn)在已知組成蛋白質(zhì)的氨基酸有20余種,如果它們可以以任意順序和長度鏈接、并折疊形成不同的蛋白質(zhì),那么理論上可能存在的蛋白質(zhì)數(shù)量會達(dá)到約10^1300,比整個宇宙中的原子數(shù)量還要多很多倍,功能更是因此豐富而復(fù)雜。

換言之,理想的情況下,如果我們可以測清氨基酸在組成蛋白質(zhì)時折疊構(gòu)成的三維結(jié)構(gòu),就可以了解清楚蛋白質(zhì)發(fā)揮什么作用和如何發(fā)揮作用,那將對人們理解生命運行、探索生命奧秘發(fā)揮巨大的助益作用。更進(jìn)一步,如果人類可以在此基礎(chǔ)上對蛋白質(zhì)進(jìn)行設(shè)計、改造乃至創(chuàng)造自然界中尚不存在的蛋白質(zhì),引導(dǎo)它發(fā)揮特定的功能,那更將會產(chǎn)生難以估量的價值。例如,在藥物研發(fā)領(lǐng)域,靶點、抗體藥、多肽類藥物、蛋白疫苗、融合蛋白藥物等都是蛋白質(zhì),如果能夠設(shè)計出新穎的蛋白藥物,將會有更大的概率解決當(dāng)前人類遇見的許多疑難雜癥;在食品領(lǐng)域,開發(fā)優(yōu)質(zhì)、安全、價格低廉的替代蛋白食品,豐富人類營養(yǎng)來源、解決食品短缺問題;材料領(lǐng)域,通過優(yōu)化蛋白質(zhì),開發(fā)易降解且能循環(huán)使用的環(huán)保生物材料,促進(jìn)社會可持續(xù)發(fā)展等。

然而,理想很美好,現(xiàn)實卻很曲折。僅僅為了弄清楚蛋白質(zhì)的組成和結(jié)構(gòu),科學(xué)界就已經(jīng)花費了近一個世紀(jì)。1902年諾貝爾化學(xué)獎獲獎?wù)?、德國化學(xué)家費舍爾(Hermann Emil Fischer)在20世紀(jì)的第一個十年中,率先提出氨基酸之間的肽鍵相連接形成蛋白質(zhì)的論點,為蛋白質(zhì)結(jié)構(gòu)研究開啟先河。然而直到半個世紀(jì)后的1959年,英國生物學(xué)家馬克斯·佩魯茨(Max Perutz)和約翰·肯德魯(John C. Kendrew)使用當(dāng)時新興的X射線晶體衍射技術(shù),分別對血紅蛋白和肌血蛋白進(jìn)行了結(jié)構(gòu)探究,人類才第一次“看清”蛋白質(zhì)分子的細(xì)節(jié),二人也因此獲得了1962年諾貝爾化學(xué)獎。在同一時期,美國生物化學(xué)家克里斯蒂安·安芬森(Christian Boehmer Anfinsen)于1961年發(fā)表論文,認(rèn)為蛋白質(zhì)所有造成最終構(gòu)象所需的信息,都被編碼于其氨基酸序列上,即蛋白質(zhì)一級排序決定三維結(jié)構(gòu)。他的這一猜想被稱為“安芬森法則”,為后來的蛋白質(zhì)結(jié)構(gòu)預(yù)測奠定了基石。1972年,安芬森也憑借著這一法則斬獲了諾貝爾化學(xué)獎。

此后,關(guān)于蛋白質(zhì)結(jié)構(gòu)的研究又經(jīng)歷了半個世紀(jì)曠日持久的緩慢推進(jìn)??茖W(xué)家陸續(xù)使用晶體衍射、核磁共振、冷凍電鏡等不同實驗技術(shù)來測定蛋白質(zhì)的三維坐標(biāo)。然而,所有這些方法都存在著耗時長、花費高、成功率低等一系列問題,加上蛋白質(zhì)的數(shù)量種類十分龐大,人們用實驗探索蛋白質(zhì)結(jié)構(gòu)的努力只能算是杯水車薪。

到了90年代,計算機科學(xué)的興起,讓基于能量優(yōu)化的計算方法又成為一種可能。該方法的理論基石就是前面說到的“安芬森法則”,即蛋白質(zhì)會折疊到最小的能量狀態(tài),如果能把某個蛋白質(zhì)的能量最優(yōu)化,理論上就可以算出它的結(jié)構(gòu)。而把這種方法教給計算機,就可以一步步優(yōu)化能量,從而達(dá)到預(yù)測蛋白質(zhì)結(jié)構(gòu)的目的。

然而,基于能量優(yōu)化的計算方法雖然在一段時間內(nèi)取得了一定成果,結(jié)果卻始終無法令人滿意,預(yù)測出來的結(jié)構(gòu)離實驗技術(shù)測出來的結(jié)果相差非常遠(yuǎn)。究其原因,一方面蛋白質(zhì)是一個非常大的體系,由成千上萬個原子組成,對應(yīng)一個非常大的搜索空間,構(gòu)型是千變?nèi)f化的;另一方面,雖然研究者普遍接受蛋白質(zhì)折疊到最小能量狀態(tài),但對于“能量函數(shù)到底是什么樣的”這個問題,研究者們莫衷一是。

巨大的研究價值,加上有限的研究手段和緩慢的研究進(jìn)展,讓蛋白質(zhì)結(jié)構(gòu)研究成為現(xiàn)代分子生物學(xué)“皇冠上的明珠”。僅在二十世紀(jì)的后四十余年內(nèi),蛋白質(zhì)相關(guān)的研究成果就有七次獲得諾貝爾獎,足見其研究難度和價值。

就此,深入廣闊無垠的蛋白質(zhì)世界、揭開更多的生命奧秘,成為生命宇宙探索的一個清晰的航向。

進(jìn)入二十一世紀(jì),機器學(xué)習(xí)逐步成為計算機科學(xué)的重要研究方向,也開始影響蛋白質(zhì)結(jié)構(gòu)研究。傳統(tǒng)的機器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個三維構(gòu)型上去,結(jié)果略優(yōu)于基于物理或統(tǒng)計的方法,但并沒有得到本質(zhì)上的改變。

這時,一把新的鑰匙出現(xiàn)了。

一件在AI領(lǐng)域眾所周知的里程碑事件,是深度學(xué)習(xí)的嶄露頭角。2012年9月,Geoffrey Hinton等人發(fā)表了題為“用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行ImageNet圖像分類”的論文。文中提出的AlexNet深度卷積神經(jīng)網(wǎng)絡(luò),在當(dāng)年的ImageNet分類任務(wù)比賽ILSVRC-2012上以巨大的領(lǐng)先優(yōu)勢獲得冠軍,全面刷新了此前紀(jì)錄。就此,深度學(xué)習(xí)技術(shù)異軍突起,進(jìn)而帶動沉寂多年AI技術(shù)進(jìn)入了新的高潮期,業(yè)界迎來了寒冬之后的第三次AI崛起。

深度學(xué)習(xí)算法采用了模擬大腦神經(jīng)元工作方式的多層神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。它的優(yōu)勢在于,可以不關(guān)注每一步的具體計算流程,而是只需要關(guān)注整體的輸入和輸出結(jié)果。比如在蛋白質(zhì)結(jié)構(gòu)研究這一領(lǐng)域,研究者可以提供氨基酸序列,并向AI算法提供氨基酸序列對應(yīng)的結(jié)構(gòu),從而訓(xùn)練AI學(xué)會自主預(yù)測蛋白質(zhì)結(jié)構(gòu)。這個方法跨越了以往蛋白質(zhì)結(jié)構(gòu)預(yù)測方案的思維定式,全面激活了AI蛋白質(zhì)預(yù)測的可行性。

此時,依舊堅守在蛋白質(zhì)結(jié)構(gòu)研究的科學(xué)家中,已經(jīng)有人敏銳地注意到了深度學(xué)習(xí)這個新工具。但最初的嘗試依舊并不樂觀,使用深度學(xué)習(xí)后與傳統(tǒng)的機器學(xué)習(xí)方法差別不大。深度學(xué)習(xí)與蛋白質(zhì)分析的第一次相遇,并沒有取得勢如破竹的效果。

讓這一切真正從長夜走向黎明的,是一位中國學(xué)者的研究成果。

2014年,在芝加哥大學(xué)豐田計算技術(shù)研究所任職的許錦波教授,設(shè)計了一種新的深度學(xué)習(xí)算法,從更為簡單的問題入手——預(yù)測蛋白質(zhì)的二級結(jié)構(gòu),即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側(cè)鏈。測試發(fā)現(xiàn),深度學(xué)習(xí)對這個簡單問題有效。此后在2015年和2016年,許錦波教授再次開發(fā)了更好的深度學(xué)習(xí)算法,可以直接用來預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。

2016年夏天,許錦波教授開發(fā)出的算法RaptorX-Contact,證明了深度殘差卷積神經(jīng)網(wǎng)絡(luò)可以大幅度提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的性能,并在當(dāng)年的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽(CASP12)中,在蛋白質(zhì)接觸矩陣的預(yù)測上得分居首位,引發(fā)學(xué)界關(guān)注。在此之前,CASP的平均得分一直在30分左右徘徊,而許錦波教授的算法一舉將紀(jì)錄提升到了60分,實現(xiàn)了真正的顛覆性突破。相關(guān)成果于2017年發(fā)表于國際計算生物學(xué)會官方期刊PLoS Computational Biology,后來獲得PLoS Computational Biology創(chuàng)新突破獎。

至此,蛋白質(zhì)宇宙的大門,終于被“AI”這把鑰匙打開了。

此后,許錦波教授繼續(xù)優(yōu)化和推廣這一算法,他的核心思想也快速被業(yè)界其他研究者采納,并相繼用于各種AI蛋白質(zhì)折疊算法的開發(fā)。一時間,用深度學(xué)習(xí)方法研究蛋白質(zhì)結(jié)構(gòu)的成果出現(xiàn)了井噴。僅許錦波教授自己,就很快在隨后的研究中進(jìn)一步認(rèn)識到,氨基酸之間的距離預(yù)測,不能一對一對預(yù)測,要所有對一起預(yù)測,并又一次率先開發(fā)出端到端模型。相關(guān)成果于2019年8月在美國國家科學(xué)院院刊(PNAS)發(fā)表,全球范圍內(nèi)首次將AI應(yīng)用至蛋白質(zhì)氨基酸(原子)之間的距離預(yù)測,進(jìn)一步提升了蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的精度,且讓科學(xué)家僅需使用筆記本電腦就能完成這項工作,將AI蛋白質(zhì)結(jié)構(gòu)預(yù)測又推向了一個新的高度。

再往后的故事,大家都知道了。DeepMind推出的AlphaFold 2在2020年的CASP 14中,實現(xiàn)了對大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測與真實結(jié)構(gòu)只差一個原子的寬度,達(dá)到了人類利用冷凍電鏡等復(fù)雜儀器觀察預(yù)測的水平,引發(fā)了全球科學(xué)界海嘯般的轟動。當(dāng)年,AI預(yù)測蛋白質(zhì)結(jié)構(gòu)就被《科學(xué)》雜志評為“十大科學(xué)突破之一”,2021年又被評為“十大科學(xué)突破”之首,2022年又入選了《麻省理工科技評論(MIT TR)》十大突破性技術(shù)。

不過,在此期間,還有一個不被外界熟知的小故事。

在2016年秋天,許錦波教授召開了一個小型報告會,向?qū)W界人士介紹RaptorX-Contact的研究成果。其中一位參會者,就是芝加哥大學(xué)生物物理系的博士后、后來領(lǐng)導(dǎo)DeepMind團隊、設(shè)計了AlphaFold的John Jumper。在聽完報告后,后者全力轉(zhuǎn)向深度學(xué)習(xí)方法,并在一兩個月后加入DeepMind。

后來,業(yè)界普遍認(rèn)為,AlphaFold的早期版本,其實現(xiàn)方式并沒有太多創(chuàng)新,而是基于RaptorX-Contact的算法思想。而AlphaFold 2中的關(guān)鍵思想,即端到端模型,根據(jù)序列的特征直接輸出三維結(jié)構(gòu),同樣與前述許錦波教授于2019年發(fā)布的研究成果異曲同工。也正因為如此,AlphaFold取得的成果,還曾在業(yè)內(nèi)引起過一段爭議:相比較大學(xué)校園中的科研活動,大企業(yè)支持的商業(yè)實驗室,其成果是否更多是精湛的工程技術(shù),而非創(chuàng)新的科學(xué)見解?

當(dāng)然,這段歷史現(xiàn)在已經(jīng)有了公論。CASP比賽的創(chuàng)辦人,馬里蘭大學(xué)細(xì)胞生物學(xué)和分子遺傳學(xué)系教授約翰·莫爾特(John Moult)就曾表示:“DeepMind在開發(fā)一種非常有效的方法方面做得很好。然而,這項工作背后的概念和方法并非憑空而來,關(guān)鍵技術(shù)是深度學(xué)習(xí)方法的應(yīng)用。毫無疑問,DeepMind直接建立在許錦波的工作之上。”

站在當(dāng)下,AlphaFold為生命科學(xué)帶來的巨大影響無法被否定。但中國學(xué)者許錦波在推動AI蛋白質(zhì)研究、AI for Science的道路上做出的先驅(qū)、開創(chuàng)性的成果,也同樣不該被人忘記。

正如本文第一部分所說,測清蛋白質(zhì)的三維結(jié)構(gòu),將對人們理解生命運行、探索生命奧秘發(fā)揮巨大的助益作用。在此基礎(chǔ)上,如果我們可以對蛋白質(zhì)進(jìn)行重新設(shè)計、引導(dǎo)它發(fā)揮特定的作用,乃至生成全新的蛋白質(zhì),那更將會產(chǎn)生難以估量的價值。就此而言,許錦波教授和他的RaptorX-Contact開了一個頭,但這只是一個開始。畢竟在深邃的生命宇宙中,還有更多的未知等待著人們?nèi)グl(fā)現(xiàn)。比如,對AI蛋白質(zhì)結(jié)構(gòu)預(yù)測的手段進(jìn)行優(yōu)化,進(jìn)而探明更多蛋白質(zhì)的結(jié)構(gòu)、更深入地理解生命運行的機制;再比如,更具有應(yīng)用想象力的AI蛋白質(zhì)優(yōu)化與設(shè)計。

由于AlphaFold 2擅長的是預(yù)測和計算單個蛋白質(zhì)的結(jié)構(gòu),僅能夠做預(yù)測且高度依賴MSA(來自同源蛋白質(zhì)的多序列比對)及其衍生的共進(jìn)化信息和序列譜,而蛋白質(zhì)世界具有的巨大復(fù)雜性,意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測還有很大的探索空間,例如蛋白質(zhì)與其他分子的相互作用、單點突變對蛋白質(zhì)結(jié)構(gòu)和功能的影響、孤兒蛋白質(zhì)結(jié)構(gòu)預(yù)測、蛋白質(zhì)側(cè)鏈預(yù)測等。因此,僅AI蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域,在AlphaFold 2出現(xiàn)后就仍然不斷有前沿成果涌現(xiàn)。

例如,2021年,“科學(xué)突破獎”獲得者,被稱作“上帝之手”的華盛頓大學(xué)教授David Baker領(lǐng)導(dǎo)來自華盛頓大學(xué)、哈佛大學(xué)、德克薩斯大學(xué)西南醫(yī)學(xué)中心等團隊發(fā)布的AI工具RoseTTAFold,擁有媲美AlphaFold 2蛋白質(zhì)結(jié)構(gòu)預(yù)測的超高準(zhǔn)確度,而且更快、所需計算機處理能力更低,不僅可以預(yù)測單個蛋白質(zhì)結(jié)構(gòu),還能預(yù)測蛋白復(fù)合物結(jié)構(gòu),但和AlphaFold 2類似,依賴于使用MSA和相似蛋白質(zhì)結(jié)構(gòu)的模板來實現(xiàn)最優(yōu)表現(xiàn)。2022年,META也曾推出ESMFold,其在預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)方面與AlphaFold 2能力相當(dāng),且能預(yù)測孤兒蛋白的結(jié)構(gòu),計算速度比AlphaFold 2快了一個數(shù)量級,單序列輸入時精度也明顯好于AlphaFold 2。不過后來META解散了該團隊,停止在這一領(lǐng)域繼續(xù)大規(guī)模投入。除了這兩個在業(yè)內(nèi)大名鼎鼎的團隊之外,在其他一些AlphaFold 2沒有很好解決的問題方面,仍有研發(fā)團隊不斷取得超過前人的成果。

這里還有一個小插曲。2024年5月8日,谷歌旗下公司DeepMind和Isomorphic Labs合作,正式發(fā)布了蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的最新AI模型AlphaFold 3。DeepMind宣稱,AlphaFold 3能預(yù)測含有蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank)內(nèi)幾乎所有分子類型的復(fù)合物的結(jié)構(gòu),包括配體(小分子)、蛋白質(zhì)、核酸(DNA和RNA)如何聚集在一起并相互作用,以及預(yù)測翻譯后修飾和離子對這些分子系統(tǒng)的結(jié)構(gòu)影響,從而幫助我們在原子水平上精確地觀察生物分子系統(tǒng)的結(jié)構(gòu)。不過,這一全新版本暫時不開源代碼,需要等到六個月以后,才能將代碼和模型權(quán)重提供給學(xué)術(shù)界使用。因此,新版本能在多大程度上超越前作,謎底還有待進(jìn)一步揭開。

而在AI蛋白質(zhì)結(jié)構(gòu)預(yù)測繼續(xù)取得突破的同時,也有目光長遠(yuǎn)的科學(xué)家轉(zhuǎn)向了更具產(chǎn)業(yè)應(yīng)用價值的AI蛋白質(zhì)優(yōu)化與設(shè)計。

以生物醫(yī)藥為例,此前,由于對蛋白質(zhì)結(jié)構(gòu)與功能的理解不夠深入,生物藥的開發(fā)一定程度上受到了局限。而如果可以運用AI對蛋白質(zhì)進(jìn)行優(yōu)化與設(shè)計,則有希望加速提升蛋白質(zhì)藥物的性質(zhì),獲得更理想的功能,甚至可借助AI,根據(jù)靶點按需快速生成新的蛋白質(zhì)藥物乃至自然界不存在的全新藥物分子,很多過去缺少解藥,甚至被視為沒有解藥的疾病,有了被治愈的可能。

同理,在其他諸如合成生物、農(nóng)業(yè)、食品、新材料等更廣泛的領(lǐng)域,AI蛋白質(zhì)優(yōu)化與設(shè)計技術(shù)還有更多、更豐富的想象力。例如,在當(dāng)下發(fā)展勢頭迅猛的合成生物領(lǐng)域中,酶(也是一類蛋白質(zhì))被廣泛使用用于生物催化,如果可以設(shè)計和改造酶的結(jié)構(gòu)和功能,提高催化效率、穩(wěn)定性和選擇性,將極大提升生物合成、催化與轉(zhuǎn)化的效率。或者,直接設(shè)計具有特定功能的蛋白質(zhì)制品,比如,開發(fā)更易于人體吸收、更富營養(yǎng)的替代蛋白食品;研發(fā)對人類安全無害、對環(huán)境友好的綠色生物農(nóng)藥;開發(fā)強有力的塑料降解催化劑幫助消除污染;創(chuàng)造更有延展性和韌性的纖維材料從而提升航空工業(yè)水平;提升農(nóng)作物的產(chǎn)量、品質(zhì),培育更多綠色高產(chǎn)的農(nóng)作物產(chǎn)品……如此多的應(yīng)用方向,還有待人們開發(fā)強有力的蛋白質(zhì)優(yōu)化與設(shè)計工具逐一去探索解決。

但相比蛋白質(zhì)結(jié)構(gòu)預(yù)測,蛋白質(zhì)設(shè)計是一個更加困難的問題。

首先,蛋白質(zhì)序列空間非常大。自然界有20余種氨基酸,假設(shè)我們需要設(shè)計1個帶有100個氨基酸的蛋白質(zhì),這個蛋白質(zhì)的序列空間就有20^100種可能性。但是這個巨大的序列空間中僅有很小比例的氨基酸序列可以穩(wěn)定折疊,且具有我們所需的特定功能。因此,要在巨大的空間中找到符合需求的氨基酸系列,無異于大海撈針。

其次,基于特定功能設(shè)計蛋白質(zhì),需要對蛋白質(zhì)結(jié)構(gòu)、功能的深入理解,而這對科學(xué)家和產(chǎn)業(yè)界而言,仍是難題。

再次,產(chǎn)業(yè)界對蛋白質(zhì)的需求復(fù)雜多樣,比如根據(jù)特定靶點設(shè)計蛋白藥物,設(shè)計可催化特定底物的酶,或是提升現(xiàn)有酶的催化效率等,這無疑又加大的蛋白質(zhì)設(shè)計研究的復(fù)雜程度。

以有“萬能生物催化劑”之稱的P450酶(CYP)為例。作為一個在生物體內(nèi)廣泛分布的龐大酶家族(包含多個家族、亞家族和酶個體,具有高度的多樣性和復(fù)雜性),它能夠催化多種反應(yīng)類型,且可識別的底物(即可與其發(fā)生生化反應(yīng)的物質(zhì))范圍極廣,因而在藥物合成,以及合成生物領(lǐng)域的應(yīng)用中具有極大的潛力。由于天然存在的P450酶無法完美契合工業(yè)需求,因此改造現(xiàn)有或設(shè)計具備新功能的P450酶,從而拓寬其應(yīng)用范圍的需求就應(yīng)運而生。然而,大多數(shù)P450蛋白的長度約為400—500個氨基酸,這就意味著,設(shè)計出新P450的可能性就達(dá)到了20^400-20^500,比宇宙中所有原子的數(shù)量(有預(yù)計可達(dá)到10^78x10^82)還要多得多,想找到合適的那一種無異于在大海中撈針。不止如此,由于P450酶的催化反應(yīng)需要適配的輔酶,這就意味著設(shè)計具備新功能的P450酶,還需要同時考慮其他蛋白質(zhì)與其相互作用的情況,這讓設(shè)計新酶的復(fù)雜度呈指數(shù)型上升。

在沒有AI技術(shù)以前,科學(xué)界也在運用一些方法,試圖在浩如煙海的蛋白質(zhì)宇宙中,尋找可能對人類有價值的蛋白質(zhì)分子,并有目的地對蛋白質(zhì)分子進(jìn)行優(yōu)化設(shè)計,使其更好地為人類所用。例如,定向進(jìn)化和理性設(shè)計。前者主要是模擬自然選擇的過程,對目標(biāo)基因進(jìn)行多輪突變和篩選實驗,直至獲得所需的優(yōu)良變體;后者則是依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點進(jìn)行精準(zhǔn)改造。但兩者都具有很明顯的缺陷。前者通過模擬自然選擇過程,對目標(biāo)基因進(jìn)行多輪突變和篩選實驗,直至獲得所需水平的優(yōu)良變體,但是該技術(shù)受限制于較低的篩選速率和序列空間中龐大的變體數(shù)量。后者依據(jù)序列和結(jié)構(gòu)信息,選擇較少的關(guān)鍵位點進(jìn)行精準(zhǔn)改造,從而構(gòu)建較小的突變文庫,但是需要對結(jié)構(gòu)功能信息有深入了解,并且當(dāng)實驗結(jié)果不符合預(yù)測時無法調(diào)整。像前述的P450酶,想要找到理想的新分子,研究者們可能花費畢生的精力,也未必能得到想要的成果——從20世紀(jì)50年代P450酶被首次發(fā)現(xiàn)以來,研究界還從未能夠通過人工設(shè)計的方式得到新的分子,僅僅是對某些已存在的分子進(jìn)行了部分改造優(yōu)化。研究界需要更有力的工具方法,更快、更精準(zhǔn)地設(shè)計符合需求的蛋白質(zhì)。

2018年以后,許錦波教授率先將研究范圍擴展至AI蛋白質(zhì)優(yōu)化與從頭設(shè)計,并將預(yù)訓(xùn)練機制引入其中,進(jìn)一步探索AI蛋白質(zhì)技術(shù)的產(chǎn)業(yè)應(yīng)用路徑。他先后推出了十余項技術(shù),比如,可同時用于蛋白質(zhì)側(cè)鏈預(yù)測與序列設(shè)計的算法,性能媲美ESMfold的單序列結(jié)構(gòu)預(yù)測算法,精度超越AlphaFold 3的復(fù)合物預(yù)測算法等,并創(chuàng)新性地融合AI與分子動力學(xué)、量子化學(xué)等技術(shù),解決科學(xué)與產(chǎn)業(yè)問題。這些技術(shù)不僅在測試中表現(xiàn)出了世界領(lǐng)先的性能,也在濕實驗中得到驗證,迅速被一些跨國藥企、生物科技公司所采用。2021年底,他回國創(chuàng)建了名為“分子之心”的AI蛋白質(zhì)優(yōu)化與設(shè)計平臺公司,并快速推出了業(yè)內(nèi)首個功能完整的AI蛋白質(zhì)優(yōu)化與設(shè)計平臺MoleculeOS,推動相關(guān)研究成果盡快實現(xiàn)更大的應(yīng)用價值與社會價值。

除了許錦波教授以外,其他團隊也在陸續(xù)發(fā)表AI蛋白質(zhì)設(shè)計算法,探索各種功能性蛋白質(zhì)生成,只是成果僅限于計算層面,未有公布產(chǎn)業(yè)應(yīng)用結(jié)果。2022年9月,David Baker團隊又開發(fā)出一種名為ProteinMPNN的從頭設(shè)計蛋白質(zhì)的深度學(xué)習(xí)工具,確定與給定蛋白質(zhì)結(jié)構(gòu)相對應(yīng)的氨基酸序列,短短幾秒鐘之內(nèi)就能夠根據(jù)自主意愿快速生成全新蛋白質(zhì),不過無法要求蛋白具備某種性質(zhì);2023年7月,該團隊又發(fā)布了一種能從頭設(shè)計全新蛋白質(zhì)的深度學(xué)習(xí)方法RoseTTAFold Diffusion,其基于擴散模型(diffusion model),能生成各種功能性蛋白質(zhì),包括在天然蛋白質(zhì)中從未見過的拓?fù)浣Y(jié)構(gòu),但與ProteinMPNN類似,無法進(jìn)行精確的條件式生成,讓蛋白具有某種特定的性質(zhì)。2022年12月,Generate Biomedicines也公布了一個名為Chroma的項目,同樣借助擴散模型(diffusion model),生成自然界中沒有的全新蛋白結(jié)構(gòu),并生成了模擬26個英文字母和10個阿拉伯?dāng)?shù)字形態(tài)的全新蛋白結(jié)構(gòu)。然而,Chrome無法基于功能需求產(chǎn)生蛋白,也不能指導(dǎo)如何評估生成的蛋白的功能性,因此更類似于科研工作,對產(chǎn)業(yè)應(yīng)用有多少價值還有待進(jìn)一步挖掘。

AI蛋白質(zhì)優(yōu)化與設(shè)計工具如雨后春筍般地出現(xiàn),讓關(guān)于AI蛋白質(zhì)宇宙的探索,又進(jìn)入到一個更深邃的空間。

當(dāng)時間進(jìn)入2023,已經(jīng)駛?cè)肷羁盏腁I蛋白質(zhì)研究又獲得了新的助推器——大模型。

2022年年底,以ChatGPT為代表的大語言模型掀起了新的AI熱潮,運用AI大模型解決產(chǎn)業(yè)問題成為一種新的趨勢。而在科學(xué)家們看來,生物是一個高度數(shù)字化的系統(tǒng),具備可解讀、可編程的特性,因而大模型的生成能力同樣可以應(yīng)用在生命科學(xué)領(lǐng)域,二者可以說是天作之合。

不過,諸如ChatGPT之類的AI大模型,側(cè)重于通用領(lǐng)域的文本、圖片、視頻等內(nèi)容生成,無法滿足諸如蛋白質(zhì)生成之類的產(chǎn)業(yè)深度需求。原因在于,蛋白質(zhì)序列形成的結(jié)構(gòu)比自然語言的結(jié)構(gòu)復(fù)雜得多,數(shù)據(jù)也比自然語言復(fù)雜得多,涉及高度專業(yè)、多樣的蛋白質(zhì)大數(shù)據(jù)。現(xiàn)代的通用大模型底層架構(gòu)無法精準(zhǔn)地對這些蛋白質(zhì)多模態(tài)數(shù)據(jù)精準(zhǔn)建模,要做好蛋白質(zhì)生成,必須從底層建立更新、更強大的AI建模技術(shù)。因此構(gòu)建AI蛋白質(zhì)生成大模型、提升蛋白質(zhì)設(shè)計的效率和成功率,也成為業(yè)內(nèi)關(guān)注的新方向。

研究界在近幾年陸續(xù)產(chǎn)生一些成果。例如,2020年,AI研究機構(gòu)Salesforce Research、合成生物學(xué)公司Tierra Biosciences和加州大學(xué)舊金山分校的一組研究人員聯(lián)合構(gòu)建的ProGen,能夠以類似“遣詞造句”的方式生成跨多個蛋白質(zhì)家族且功能可預(yù)測的蛋白質(zhì)序列。但其只能接受序列信號、無法接受結(jié)構(gòu)信號,不能夠同時考慮結(jié)構(gòu)、功能、相互作用、進(jìn)化等信息,成功率較低,也無法精準(zhǔn)地實現(xiàn)產(chǎn)業(yè)應(yīng)用中所需要的功能。而在國內(nèi),2023年,百圖生科與清華大學(xué)聯(lián)合提出了千億參數(shù)的蛋白質(zhì)語言模型xTrimoPGLM,探索了蛋白質(zhì)理解和生成這兩種類型目標(biāo)之間的兼容性以及共同優(yōu)化的可能性,能夠?qū)蝹€蛋白質(zhì)、細(xì)胞中蛋白質(zhì)相互作用、細(xì)胞本身,以及細(xì)胞系統(tǒng)建模。2024年6月,由前Meta AI研究人員創(chuàng)立的Evolutionary Scale AI發(fā)布了蛋白質(zhì)語言模型ESM3,能力超越了前述兩種,支持序列、結(jié)構(gòu)、功能的同時推理,但目前仍存在生成精度不足、使用特別復(fù)雜、無法微調(diào)等問題。

率先取得產(chǎn)業(yè)應(yīng)用成果驗證的,還是許錦波教授及其團隊。在分子之心成立不久后的2023年,團隊又推出了業(yè)界首個集成序列、結(jié)構(gòu)、功能和進(jìn)化的產(chǎn)業(yè)級AI蛋白質(zhì)生成大模型“NewOrigin(達(dá)爾文)”,不僅具備成功率高、普適性高等優(yōu)勢,從而通過計算的方式,規(guī)避了傳統(tǒng)方法對大規(guī)模濕實驗(即生物實驗)的依賴,提高生產(chǎn)效率、降低成本,還可以讓不具備AI算法背景的生物學(xué)家,通過對話的形式與大模型進(jìn)行交互。

此后,團隊積極地將其投入應(yīng)用于產(chǎn)業(yè)項目,在產(chǎn)業(yè)實踐中一邊獲得反饋、一邊進(jìn)行優(yōu)化。不到一年的時間里,就取得了多個產(chǎn)業(yè)應(yīng)用成果。例如,在生物材料領(lǐng)域,運用NewOrigin幫助合作伙伴優(yōu)化一種涉及行業(yè)瓶頸,但極具商業(yè)價值的關(guān)鍵蛋白質(zhì),在未使用產(chǎn)業(yè)場景數(shù)據(jù)的情況下,相對于野生菌,AI設(shè)計的一個重要酶蛋白結(jié)構(gòu)使菌種產(chǎn)率提高了5倍,有望讓這一被持續(xù)改造了數(shù)十年的蛋白質(zhì)實現(xiàn)性能飛躍,從而帶動產(chǎn)率大幅提升、成本大幅降低;在創(chuàng)新藥研發(fā)領(lǐng)域,針對某蛋白疫苗的穩(wěn)定性、表達(dá)量等進(jìn)行多目標(biāo)優(yōu)化,AI優(yōu)化后的疫苗,經(jīng)過動物實驗表明,產(chǎn)生中和抗體滴度達(dá)到已公開專利和相關(guān)大型藥企同類疫苗的數(shù)倍,并突破相關(guān)疫苗穩(wěn)定性專利。而AI設(shè)計的一條細(xì)胞因子管線,在保持抑制腫瘤活性的同時,減毒(減少外周活性)數(shù)百倍,猴子耐受劑量達(dá)到同類管線的數(shù)十倍……成功的產(chǎn)業(yè)應(yīng)用成果,證實了AI蛋白質(zhì)大模型的強有力能力。

大模型的表現(xiàn)初露鋒芒,讓人信心倍增。在大模型的加持下,過往蛋白質(zhì)研究的“挖礦尋寶”碰壁試錯的模式,將變成“按圖索驥”的新方式,甚至有可能從頭“發(fā)明”具備特定功能的全新蛋白質(zhì)。而通過可編程的蛋白質(zhì)設(shè)計技術(shù),將解決傳統(tǒng)方法無法滿足的需求,極大地提升藥物研發(fā)、合成生物、新材料、食品、農(nóng)業(yè)、環(huán)保等領(lǐng)域的研發(fā)效率,并降低成本。一個由AI蛋白質(zhì)大模型作為底層技術(shù)支撐、從而推動生物制造產(chǎn)業(yè)更加欣欣向榮的場景,已然躍入眼前。

值得一提的是,2024年9月,分子之心宣布完成A輪融資。融資額達(dá)數(shù)億元人民幣,由謝諾投資、深創(chuàng)投聯(lián)合領(lǐng)投,商湯國香資本、久奕投資跟投。截至此次融資,分子之心累計完成3輪融資,過往投資方包括合成生物學(xué)龍頭企業(yè)凱賽生物、紅杉中國、百度BV、聯(lián)想創(chuàng)投等。至此,分子之心可以說已經(jīng)成長為具有行業(yè)標(biāo)桿地位的AI生物大分子設(shè)計平臺公司,為中國AI生物基礎(chǔ)設(shè)施建設(shè)打開了新的局面。

許錦波教授表示,本輪融資將用于進(jìn)一步擴大頂尖復(fù)合型技術(shù)及產(chǎn)業(yè)人才團隊,推進(jìn)高性能算力平臺、智能化高通量濕實驗室等硬實力建設(shè),深入AI蛋白質(zhì)基礎(chǔ)大模型、AI蛋白質(zhì)優(yōu)化設(shè)計平臺MoleculeOS等生物經(jīng)濟基礎(chǔ)設(shè)施建設(shè),更進(jìn)一步推動AI蛋白質(zhì)技術(shù)的產(chǎn)業(yè)級應(yīng)用及商業(yè)化發(fā)展。

有了大模型這一助推器,AI蛋白質(zhì)宇宙深空中的繁星愈發(fā)觸手可及。

二十世紀(jì)的后五十年中,人們見證了以基因技術(shù)為代表的生物科技日新月異,以及在此基礎(chǔ)上醫(yī)療健康水平的提升、農(nóng)牧業(yè)生產(chǎn)改善與豐富。進(jìn)入二十一世紀(jì),合成生物學(xué)、AI蛋白質(zhì)折疊為代表的新一代生物科技興起。一種不依賴化石能源,而是通過生物制造與生物產(chǎn)品推動社會發(fā)展的新科技通道,躍入了人類社會的想象。

麥肯錫全球研究院曾在2020年發(fā)布的一份研究報告中指出,全球經(jīng)濟活動中60%的物質(zhì)產(chǎn)品可以通過生物技術(shù)進(jìn)行生產(chǎn),其涉及市場規(guī)??赡芨哌_(dá)4萬億美元。面對如此巨大的經(jīng)濟價值,以及化石能源走向枯竭、環(huán)境污染日益嚴(yán)重的問題,世界各國紛紛在生物經(jīng)濟、生物科技的創(chuàng)新應(yīng)用等方面展開頂層設(shè)計與前瞻性布局。希望能夠在生物經(jīng)濟時代的大變局中占得先機。

目前,包括中、美、日、歐盟等60多個國家或地區(qū)已經(jīng)制定了生物制造或生物經(jīng)濟的專門政策,更新國家與地區(qū)生物經(jīng)濟發(fā)展戰(zhàn)略,以及制定生物制造發(fā)展路線圖和行動計劃等。

其中,在2022年美國白宮啟動了《國家生物技術(shù)和生物制造計劃》,并于2023年發(fā)布“生物技術(shù)和制造目標(biāo)”時間表,成立國家生物經(jīng)濟委員會,明確要大幅度提升生物制造的速度、成功率和創(chuàng)新效率,解決生物實驗法無法解決的問題;2024年3月,歐盟委員會發(fā)布題為“與自然共建未來:推動生物技術(shù)和生物制造”的政策文件,提出采取有效利用研究成果并促進(jìn)創(chuàng)新、刺激市場需求、簡化監(jiān)管途徑、鼓勵公共和私人投資、制定并更新標(biāo)準(zhǔn)、開展國際合作等一系列針對性措施,促進(jìn)歐盟生物技術(shù)和生物制造發(fā)展;2024年5月,日本政府提出,2030年實現(xiàn)100萬億日元市場規(guī)模的生物經(jīng)濟。在生物制造方面,將推動建立生物技術(shù)和AI等數(shù)字技術(shù)融合的微生物和細(xì)胞設(shè)計平臺,并完善生物工廠等基礎(chǔ)設(shè)施。在中國,2022年《“十四五”生物經(jīng)濟發(fā)展規(guī)劃》首次專門針對生物經(jīng)濟進(jìn)行規(guī)劃,明確將生物制造作為生物經(jīng)濟戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展方向;2024年“生物制造”作為新增長引擎首次被寫入兩會政府工作報告。

在這樣的時代背景下,AI蛋白質(zhì)折疊可謂占據(jù)著“牽一發(fā)動全身”的意義。這項技術(shù)融合了AI技術(shù)的飛速發(fā)展與生物經(jīng)濟的巨大價值。兼兩家之長,成未有之事。

在AI蛋白質(zhì)相關(guān)領(lǐng)域,承接DeepMind創(chuàng)新研究成果的Isomorphic Labs正在與諾華、禮來的AI藥物開展戰(zhàn)略合作;AI驅(qū)動的蛋白質(zhì)設(shè)計公司Generate Biomedicines接受了生物科技巨頭安進(jìn)(Amgen)的19億美元投資,用于開發(fā)蛋白質(zhì)療法;合成生物領(lǐng)域的代表企業(yè)Ginkgo Bioworks正在與Google Clouds合作,開發(fā)新的大語言模型應(yīng)用于藥物發(fā)現(xiàn)、生物安全等領(lǐng)域,并與美國國防部高級研究計劃局(DARPA),圍繞如何利用無細(xì)胞蛋白質(zhì)合成(CFPS)技術(shù)、按需制造蛋白質(zhì)展開合作;英偉達(dá)在2023年連續(xù)投資九家應(yīng)用生成式AI進(jìn)行藥物研發(fā)的初創(chuàng)企業(yè)……資本、技術(shù)、應(yīng)用等眾多力量的加入,將會加速AI蛋白質(zhì)技術(shù)的進(jìn)一步開發(fā),帶來更快、更大規(guī)模的應(yīng)用落地。

站在2024年的時間線上,可以篤定的是,由AI蛋白質(zhì)折疊解鎖的生命宇宙航線,即將為生物經(jīng)濟與人類健康事業(yè),帶來更加多彩的流光。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-23
AI蛋白質(zhì)折疊:在生命宇宙中漫游,遠(yuǎn)眺生物經(jīng)濟的流光
AI蛋白質(zhì)折疊:在生命宇宙中漫游,遠(yuǎn)眺生物經(jīng)濟的流光

長按掃碼 閱讀全文