生病背后,是你的"生命代碼"被黑了

文/穆楠(本文首發(fā)百度百家)

抽煙為社么增加肺部細胞變異率?用簡單IT方式來講,是你生命程序那段代碼被黑客給黑了——黑客黑的概率會隨著環(huán)境因素不同而變化,如果經(jīng)常抽煙,如果經(jīng)常生活在不好的環(huán)境里,受到各種各樣病毒感染,你的"生命程序"就可能被黑。而一個腫瘤細胞發(fā)生到你最后你可以用CT掃描能查出來,平均要15年。

這是22日在深圳IT領(lǐng)袖峰會上華大基因首席執(zhí)行官王俊的一段發(fā)言,在演講的過程中中,王俊摒棄了醫(yī)學專業(yè)名詞,試圖用IT人都能理解的“黑客”、“代碼”等詞來解釋為什么生命是“數(shù)字化”的,我們又該如何去理解生命、甚至防治疾病,他同時預測,在2019年或許可以實現(xiàn)免費測序個人的全部基因組,這或許對于每個人的健康有些重大意義。

下面根據(jù)王俊的實錄,總結(jié)了6與我們最為相關(guān)的話題,包括生命的編程、“源代碼”的異同、疾病的根源、利用數(shù)據(jù)挖掘能治療疾病等。(注:在原文的基礎(chǔ)上有所刪節(jié))。

1、生命能夠“被編程”?

當我們講數(shù)字化的時候,講計算機,講IT,習慣于以硅為體系。但是在講到生命的時候是以碳為體系。生命的基礎(chǔ)是碳,生命是數(shù)字化的。它能夠儲存嗎?能夠編程嗎?能夠用不同的程序改變來實現(xiàn)不同的生命形式嗎?可以做克隆嗎?

答案當然是行的——我們是很容易做克隆的。它能存儲嗎?能,為什么能那么簡單從一個羊身上提一個細胞變成另一個羊呢?因為那個羊的細胞儲存了所有羊的生命程序。一個巴掌大的DNA可以儲存多少年呢?事實上可以達到上億年的儲存時間,最起碼可以上百萬年。DNA是可以存儲的。

他能夠計算嗎?當然能。因為計算和編程最核心基本單位是基因,基因是生命體最基本構(gòu)成單位。我們每個人身上蘊藏所有信息組合就是一套生命信息基本程序,這套基本程序就是生命的語言。

它的語言怎么形成的呢?在最開始的時候,就像每個程序員寫出一個功能模塊希望所有人都用他這個功能模塊一樣,在生命體里形成一些基因、一些蛋白質(zhì)、一些小分子,基因、蛋白質(zhì)、小分子也希望不斷擴張自己,在不斷擴張自己同時,其實在美國有一本書非常出名,整個不斷過程就是不斷復制、不斷擴張、不斷延展,有時候發(fā)現(xiàn)一個基因并不夠用,可以和其他基因一起合作,兩個基因、三個基因一起合作更好的時候,當一堆基因合作更好的時候,就形成個體。

2、生命的“源代碼”為何不同?

我們?nèi)松砩嫌?-3萬個基因,水稻有5萬多基因,不同物種有不同基因,比如我們現(xiàn)在看到一個酵母菌用4000個基因,所有不同基因組合形式不同的生命程序,不同生命程序就形成你這個個體與周圍環(huán)境適應。檢查這套程序到底好用不好用的唯一標準——

就是你這套程序能不能活下去?傳播更多后代。

當你選擇傳播更多后代的這套程序就叫做可以適應于這套環(huán)境的生命語言。所以我們看見所謂的達爾文進化學說、適者生存都是這個基礎(chǔ)上建立,我們每個人更基因信息的載體,每個人跟微小蟲子相比都發(fā)現(xiàn)了相似性,很多基因從那兒傳到我們身上。對于個體來說也是一樣的,每個人一套生命程序也是不一樣的。

舉例來說,為什么西藏人可以高山適應?為什么我們上了高原有非常強的高原反應,是因為身體一套程序沒有寫進高山適應的基因,藏族人有一套基因,有這個基因的人群可以在高原體系上沒有反應,像我們在上面就不行。在漢族人體系里就只有5%人有這個基因,而藏族人達到95%。這樣的東西不僅僅單純存在在西藏特別復雜極端的環(huán)境里,還有很多東西跟飲食相關(guān)。比如南方傣族人因為在祖先經(jīng)常吃檳榔,所以體內(nèi)基因很多跟檳榔適應。等等。

為什么西藏人跟漢族人不一樣呢?當我們考慮一個精子、卵子結(jié)合的時候,他發(fā)生了重組,每一代當中,你孩子和父母之間有100個基因突變,這些基礎(chǔ)就形成不同生存策略,環(huán)境在時時刻刻變化、基因在時時刻刻變化,基因組是預測程序。你身上基因是因為你祖先上千年、上萬年不斷學習、進化,對你后來有可能遇到的環(huán)境的預測。你體內(nèi)基因不會告訴你去不去高原,但是一定會告訴你去完高原會有什么反應。

有人說,如果你做真正很好的遵循基因告訴你的事情,你可以活到150歲,但是為什么活不到150歲?因為你會得各種各樣的病,這些病從年輕的時候開始一直到年老都有關(guān)系,而這些病跟基因有什么關(guān)系、或者跟環(huán)境、跟數(shù)字化、跟IT、BT有什么關(guān)系呢?

3、疾病就是基因出現(xiàn)了bug?

基因里面的毛病有點像寫程序的時候出了一個bug,出了bug,基因程序運行不了,在有時候就出現(xiàn)很嚴重的問題。

比如各種各樣罕見疾病。有罕見疾病的一般生存周期都非常短,我們有各種各樣例子,這種罕見疾病聽起來非常罕見,但是加起來一點都不罕見,中國有大于5.6%的孩子出生有各種各樣的出生缺陷。生命程序不斷試代碼、試代碼過程中不斷試錯,當然每一個錯誤并不是代表新的往前演化的可能。

當孩子出身之前,我能不能做一些檢測,早點發(fā)現(xiàn)有什么問題?但需要先查一下你的父親、母親有沒有基因突變,如果有,你們生孩子概率有多少,如果這樣的話,以后就不要配八字了,談戀愛結(jié)婚之前先配一下基因,看生命基因程序是不是匹配。

懷孕兩到三個月之內(nèi)可以對孩子進行完整基因檢測,尤其是針對非常罕見的基因性疾病,通過這些篩差可以達到出生前防控。比如,中國耳聾發(fā)生率很多是因為錯用抗生素,如果體內(nèi)基因不能受鏈霉素這個抗生素,一下就耳聾。但如果早一點知道他得各種各樣的心臟病、耳聾,包括自閉癥風險,我們是不是可以早一點干預?是可以的。我們能不能治呢?除了用一個非??勺兊男畔⒖催@些東西之后,我們又有一個非常瘋狂的想法——

4、利用數(shù)據(jù)挖掘能治療罕見???

能不能通過大數(shù)據(jù)挖掘發(fā)現(xiàn)一些罕見病真正解決方案呢?答案是可以的!

我們(華大基因)有一個計劃,搜索了100萬人基因數(shù)據(jù),尋找那些單純從基因校對來講他應該單基因疾病,但是非常健康的人,這些人我們叫超級英雄——他們體內(nèi)有非常明確的致病基因,但是非常健康,為什么?因為體內(nèi)有另外一套基因保護他。就像程序我一段出現(xiàn)bug,但是有另外一段修復,就非常健康。如果找出那一段是什么,也許可以找出罕見性疾病的藥物。

再往下走是腫瘤,很多人面對腫瘤威脅,腫瘤是你生存過程中由于環(huán)境因素影響,你的基因程序在變異,所有細胞都來源于第一個細胞,受精卵細胞,從那個細胞開始每次都會引發(fā)程序變化。不同環(huán)境影響會導致程序非常大不同——比如抽煙增加肺部細胞變異率。用簡單IT方式來講,是你生命程序那段代碼被黑客給黑了。黑客黑的概率會隨著環(huán)境因素不同而變化,如果經(jīng)常抽煙,如果經(jīng)常生活在不好的環(huán)境里,或者受到各種各樣病毒感染,可能程序被黑。

怎么辦呢?其中有可能一個細胞發(fā)生被黑了,沒有關(guān)系,有人說我身體有上億個細胞。但是如果一個細胞被黑了,他很有可能獲得比其他細胞更強的適應性,他可以不斷擴張。從一個腫瘤細胞發(fā)生到你最后你可以用CT掃描能查出來,平均要15年。也就是15年內(nèi)體內(nèi)有腫瘤細胞你不知道,我們能不能早點發(fā)現(xiàn)他?答案是可以的,因為所有細胞最終都要游離到血液里,我們通過非常深度的基因檢測可以看到你體內(nèi)有沒有腫瘤細胞。

5、如何用基因工程治療腫瘤?

如果得了腫瘤怎么辦呢?每一個人的腫瘤,每一個個體,腫瘤每一個細胞的基因都不一樣,你做的事是對所有細胞真正基因監(jiān)測,而不是簡單的手術(shù)一切、放療、化療,這樣的治療有可能在未來兩三年內(nèi)看到飛速發(fā)展。

其實萬物都是跟基因有關(guān)系。我的體內(nèi)細胞如果以人為一個整體的話,作為人這個個體的細胞只占人體的細胞的1/10,還有9/10是各種各樣的微生物、各種各樣病毒,你天天洗兩次澡都沒有用。你吸收一個半小時候所有細菌都回來了。這些微生物并不是都是壞的,比如微生物體內(nèi)病源微生物會形成什么影響?所帶來影響是非常大的,比如埃博拉病毒、SARS病毒,90%發(fā)燒腹瀉你根本不知道怎么回事。小于1%微生物可以被培養(yǎng),你根本沒有辦法搞明白到底什么讓你發(fā)燒、什么讓你腹瀉,你可以所有DNA提取出來,一個小時內(nèi)就知道到底怎么會感染。早一點這樣做,就可以早一點擺脫疾病風險。

還有另外一個事情,高血糖、高血壓三高,30年前中國糖尿病發(fā)生率0.67%,現(xiàn)在已經(jīng)接近11%,1/4中國成年人要么得糖尿病、要么要得糖尿病,不可能是基因在過去30年有非常大的改變,是因為飲食變化、環(huán)境變化,引發(fā)腸道微生物菌群失調(diào),很多疾病都跟這個有關(guān)系。

我們應該做的是確保你體內(nèi)是符合真正健康的菌群體系,最終我們要完成這個生命公式——右邊是你表現(xiàn)的狀況,身高、體重、各種各樣的病理特征、健康與否,中間的公式怎么寫呢?相當于我們只知道一個程式的輸入端、輸出端,中間是怎么編程,毫無所知。該怎么辦呢?

答案是大數(shù)據(jù),健康大數(shù)據(jù)取決于把所有輸入端、輸出端全部計算清楚,如果研究清楚身高基因的關(guān)系,需要100萬人。要研究清楚絕大部分復雜疾病和基因以及環(huán)境的關(guān)系,需要100萬人。你需要把100萬人各種各樣信息全部搜集,才能得到生命公式。

6、2019年免費測序個人完整基因組?

1999年華大基因參與了1%人類基因組計劃。當時測序需要10億美金,最近已經(jīng)降成1萬美金,仍然很貴,要搜集100萬人的數(shù)據(jù)仍然很貴,現(xiàn)在可以做到1000美金,我估計明年會推出一個500美金可以測定一個人的完整基因。這就可以搜集基因數(shù)據(jù)。

什么時候可以免費呢?免費實施的到來事實上在于基因本身的數(shù)據(jù)價值遠遠大于產(chǎn)生他的數(shù)據(jù)所需要的成本。這樣一個趨勢延續(xù)我們認為在2019年左右,5年左右時間我們可以真正達到這樣的結(jié)果。

為什么講基因組網(wǎng)絡那么重要,如果把每個人數(shù)據(jù)都連起來,形成基因組網(wǎng)絡,將是不可估量,每個人在上面產(chǎn)生數(shù)據(jù)和支持,基因組是一樣的。人因基因組計劃,每個人的基因計劃,當所有基因組形成網(wǎng)絡,當所有病人組合了一個網(wǎng)站,我們就可能有機會把這個基因和病之間的關(guān)系搞清楚,在上面會形成各種各樣的機會,這些機會、信息和知識是以前我們在沒有做甚至一個個人基因組是不可想象的。

最終要做的是需要人工智能來學習,因為這么大的量已經(jīng)不可能用一個單一模型來解決。而華大已經(jīng)在做很多事,這些事聽起來像天方夜譚,我們做了3000株小米,在同一個地方測定各種各樣生長條件,最后看出來他產(chǎn)量是多少、營養(yǎng)成分怎么樣、各種各樣結(jié)果,我們給他進行深度學習、人工智能方法,現(xiàn)在給定另外一駐小米,我有90%準確性可以預測他長的怎么樣。對健康有這樣的能力嗎?當我們擁有100萬人基因測序的時候,離這樣的能力很近。

奧巴馬提出一個精準醫(yī)療計劃,就是要做100萬人基因組庫,當所有人完成后,我們會有一個水晶球,預測對你未來健康走向預知,而這樣的預知很有可能再做一些改變,我們聽過3D打印、細胞存儲、基因編輯、我們聽過合成生物學,喝的啤酒的酵母將不是自然界酵母,而是計算機寫出來的,酵母產(chǎn)生的啤酒味道也許比你現(xiàn)在喝的任何啤酒味道都要好。還有,生命信息的存儲,我們都叫干細胞,就是年輕時候的生命信息,你不是想年輕嗎?在你年老的時候能不能把年輕時候的信息再回到,也許就年輕了。所有像科學幻想的東西都在生命科學界在以飛速方式往前走。

如果真正基于一個所謂人工智能方式、大數(shù)據(jù)處理方式,能管理健康、掌握預測的程序和健康關(guān)系,也許是真正最有意義的。

有關(guān)華大基因:華大是全球最大的基因組中心、最大的生物信息中心,其機構(gòu)遍布60多個國家,同時是國家基因庫承辦單位,國家基因庫存儲各樣生命信息體。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-03-23
生病背后,是你的"生命代碼"被黑了
文 穆楠(本文首發(fā)百度百家)抽煙為社么增加肺部細胞變異率?用簡單IT方式來講,是你生命程序那段代碼被黑客給黑了——黑客黑的概率會隨著

長按掃碼 閱讀全文