華大基因的“最強(qiáng)大腦”

未來(lái),也許只需要一口唾沫,你就能夠未卜先知,將潛在的疾病扼殺在發(fā)病之前;只需要一塊皮下組織,你就能夠克隆出新的器官并替換損傷的器官,從而極大地延長(zhǎng)自己的生命。而這些,都依賴于科學(xué)家去發(fā)現(xiàn)人類基因背后的奧秘。

這就需要對(duì)人類的基因組進(jìn)行測(cè)序和分析,才能找出其中的規(guī)律。但是,這在過(guò)去幾乎是不可能完成的任務(wù),因?yàn)榛蚪M的數(shù)量是如此之大,大到了超越目前的計(jì)算能力。一個(gè)小小真菌,比如酵母的基因組總量就有10Mb,而一個(gè)人的全基因組則是3Gb(3000Mb),也就是30億個(gè)堿基,如果將全部測(cè)序數(shù)據(jù)打成文字排成書,這本書的厚度將超過(guò)100米。此外,由于受到技術(shù)和方法學(xué)的限制,每個(gè)人至少要測(cè)100Gb也就是基因組的30倍以上,才能得到相對(duì)準(zhǔn)確的全基因組數(shù)據(jù)。

為了完成一個(gè)人的全基因組測(cè)序,需要花費(fèi)多少時(shí)間、多少金錢?1987年初,“人類基因組”計(jì)劃開始立項(xiàng),1990年,項(xiàng)目正式啟動(dòng)。經(jīng)過(guò)美、英、日、法、德、中多國(guó)科學(xué)家的努力,終于在2003年4月完成了全部工作。當(dāng)時(shí),華大基因牽頭,國(guó)家基因組南方中心、北方中心共同參與,承擔(dān)了其中1%的基因組測(cè)序及分析工作。總共算下來(lái),“人類基因組”花費(fèi)了16年的時(shí)間和30億美元,才完成了第一個(gè)白種人的全基因組圖譜繪制工作。

不過(guò),當(dāng)華大基因在2007年10月11日完成第一個(gè)黃種人的全基因組圖譜繪制(該項(xiàng)目也被稱為“炎黃一號(hào)”)的時(shí)候,才不過(guò)花了一年的時(shí)間和區(qū)區(qū)1000萬(wàn)人民幣。

這要得益于第二代基因測(cè)序技術(shù)的出現(xiàn)。與第一代基因測(cè)序技術(shù)相比,第二代最顯著的特征是高通量,一次能對(duì)幾十萬(wàn)到幾百萬(wàn)條DNA分子進(jìn)行序列測(cè)序,從而大大地提升了測(cè)序速度和通量,從而極大地降低了成本。不過(guò),第二代基因測(cè)序技術(shù)需要更高速的計(jì)算能力配合。在生物技術(shù)特別是基因組技術(shù)的發(fā)展進(jìn)程中,是計(jì)算能力而不是測(cè)序技術(shù)成為了瓶頸。

早在參加“人類基因組”項(xiàng)目的時(shí)候,華大基因就已經(jīng)洞悉了這個(gè)“秘密”。從那個(gè)時(shí)候開始,華大基因開始采購(gòu)小型機(jī)以提升自身的計(jì)算能力,其采購(gòu)的服務(wù)器也從SGIO2升級(jí)到了曙光2000/3000。有了強(qiáng)大的計(jì)算能力,華大基因得以在2002年順利完成水稻基因組的測(cè)序和組裝工作,只用了不到一年的時(shí)間,而日本同行卻用了8年的時(shí)間,花費(fèi)也是華大基因的7倍以上。

從2005年開始,華大基因發(fā)現(xiàn)僅僅采購(gòu)小型機(jī)已經(jīng)不能夠滿足基因測(cè)序的饕餮胃口了,于是嘗試購(gòu)買X86通用服務(wù)器,自己搭建分布式集群計(jì)算系統(tǒng)。據(jù)華大基因副院長(zhǎng)方林回憶,當(dāng)時(shí)他們先用辦公室里的幾臺(tái)PC搭建了一個(gè)集群系統(tǒng),用了感覺比較成熟之后才開始大規(guī)模地采購(gòu)X86通用服務(wù)器。在這個(gè)過(guò)程中,他們參考了曙光4000的技術(shù)標(biāo)準(zhǔn),也做了不小的改進(jìn)。例如,當(dāng)時(shí)的曙光4000沒有硬盤,而華大基因的計(jì)算對(duì)于交換分區(qū)的性能要求比較高,于是專門給服務(wù)器配了硬盤。

如今,華大基因已經(jīng)建立起了2000多臺(tái)服務(wù)器的分布式集群計(jì)算系統(tǒng),技術(shù)架構(gòu)也從過(guò)去傳統(tǒng)的分布式計(jì)算轉(zhuǎn)向了Hadoop等云計(jì)算架構(gòu)。華大基因的集群計(jì)算能力達(dá)到了200萬(wàn)億次/秒,能夠進(jìn)入2013年全球高性能計(jì)算的前100名。強(qiáng)大的計(jì)算能力與測(cè)序能力一起,使得華大基因超越美國(guó)的Broad、英國(guó)的Sanger等海外知名的測(cè)序中心,成為全球最大的基因組學(xué)研究機(jī)構(gòu)。

依托強(qiáng)大的計(jì)算能力,華大基因正在雄心勃勃地啟動(dòng)“百萬(wàn)人基因組”項(xiàng)目,它計(jì)劃同時(shí)完成百萬(wàn)數(shù)量級(jí)的人類基因組、蛋白質(zhì)組、代謝組、表型組等一系列數(shù)據(jù)收集分析工作。據(jù)華大基因估計(jì),由此需要收集的數(shù)據(jù)量將高達(dá)10EB(1EB等于10的18次方個(gè)字節(jié)),數(shù)據(jù)的參數(shù)規(guī)模將達(dá)到1-10億。要知道,目前國(guó)內(nèi)的BAT三大互聯(lián)網(wǎng)公司擁有的數(shù)據(jù)量也不過(guò)只有EB級(jí)別,數(shù)據(jù)的參數(shù)規(guī)模則只有千萬(wàn)級(jí)別。無(wú)論從哪個(gè)方面來(lái)看,這都是不折不扣、名副其實(shí)的大數(shù)據(jù)計(jì)劃。

顯然,僅僅依靠華大基因自己的計(jì)算資源,已經(jīng)無(wú)法搞定這件事情了,好在還有已經(jīng)建成的國(guó)家隊(duì)——天河超級(jí)計(jì)算機(jī)。目前,華大基因已經(jīng)分別與天津超級(jí)計(jì)算機(jī)中心(計(jì)算能力4700萬(wàn)億次/秒)、廣州超級(jí)計(jì)算機(jī)中心(目前計(jì)算能力已達(dá)5億億次/秒,總設(shè)計(jì)能力將達(dá)11億億次/秒)達(dá)成了合作,將利用這兩大中心超強(qiáng)的計(jì)算能力,早日完成“百萬(wàn)人基因組”項(xiàng)目。由于需要的計(jì)算量是如此之大,以至于當(dāng)項(xiàng)目啟動(dòng)之后,將占用天津超級(jí)計(jì)算機(jī)中心10%、廣州超級(jí)計(jì)算機(jī)中心30%的計(jì)算資源!

2013年3月,華大基因完成了收購(gòu)美國(guó)基因測(cè)序公司CompleteGenomics的壯舉。這次收購(gòu)一方面將降低華大基因?qū)ι嫌蝺x器生產(chǎn)商的依賴,另一方面也將深遠(yuǎn)影響世界基因測(cè)序競(jìng)爭(zhēng)格局,大大降低基因測(cè)序的服務(wù)成本。隨著超高通量測(cè)序技術(shù)和超級(jí)計(jì)算能力的完美結(jié)合,華大基因有望在兩年后將個(gè)人全基因組測(cè)序成本降低到數(shù)千人民幣甚至更低。

看來(lái),BT(生物技術(shù))要取得進(jìn)一步的發(fā)展,仍然離不開老冀一直關(guān)注的IT(信息技術(shù)),離不開包括大數(shù)據(jù)和超級(jí)計(jì)算在內(nèi)的“最強(qiáng)大腦”。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2014-07-01
華大基因的“最強(qiáng)大腦”
未來(lái),也許只需要一口唾沫,你就能夠未卜先知,將潛在的疾病扼殺在發(fā)病之前;只需要一塊皮下組織,你就能夠克隆出新的器官并替換損傷的器官

長(zhǎng)按掃碼 閱讀全文