聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

面對(duì)當(dāng)前新型冠狀病毒(2019-nCoV)感染肺炎不斷擴(kuò)散的嚴(yán)峻形勢(shì),華為云EI醫(yī)療智能體團(tuán)隊(duì)聯(lián)合華中科技大學(xué)同濟(jì)醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院李巖教授,西安交通大學(xué)第一附屬醫(yī)院劉冰教授,中科院北京基因組研究所韓大力研究員,華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬武漢兒童醫(yī)院柯尊輝大夫組成聯(lián)合攻關(guān)團(tuán)隊(duì),針對(duì)新型冠狀病毒(2019-nCoV)的多個(gè)靶標(biāo)蛋白進(jìn)行了超大規(guī)模計(jì)算機(jī)輔助藥物篩選工作。篩選出五種可能對(duì)2019新型冠狀病毒(2019-nCoV)有效的抗病毒藥物(新聞鏈接:https://www.huaweicloud.com/news/2020/20200204113312294.html)?,F(xiàn)將聯(lián)合科研團(tuán)隊(duì)對(duì)2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布。

  背景介紹

  蛋白質(zhì)同源建模

蛋白質(zhì)同源建模是指當(dāng)未知結(jié)構(gòu)的蛋白和已知結(jié)構(gòu)的蛋白質(zhì)在一級(jí)序列上比較相似的時(shí)候,可以把已知結(jié)構(gòu)的蛋白作為模板,通過(guò)計(jì)算機(jī)的模擬和計(jì)算,基于未知結(jié)構(gòu)蛋白的一級(jí)序列預(yù)測(cè)其三維空間結(jié)構(gòu)。

同源建?;趦蓚€(gè)假設(shè):1. 蛋白質(zhì)的結(jié)構(gòu)由其氨基酸序列唯一決定,如果已經(jīng)知道一級(jí)序列,在理論上就可以獲取其二級(jí)結(jié)構(gòu)以及三級(jí)結(jié)構(gòu)。2. 蛋白質(zhì)的三級(jí)結(jié)構(gòu)在進(jìn)化中相比于其一級(jí)序列更加保守。如果兩個(gè)蛋白質(zhì)的氨基酸序列有50%相同,那么約有90%的a-碳原子的位置偏差不超過(guò)3 Å。

以SARS-CoV蛋白質(zhì)結(jié)構(gòu)作為模板構(gòu)建2019-nCoV蛋白質(zhì)三維結(jié)構(gòu)

2019-nCoV和SARS-CoV非常近似,氨基酸的序列一致性達(dá)到了76.47%。同時(shí)SARS-COV的蛋白質(zhì)的三維結(jié)構(gòu)基本上已經(jīng)被解析出來(lái),所以我們可通過(guò)這些已知的蛋白質(zhì)三維結(jié)構(gòu)作為模板,構(gòu)建2019-nCoV的蛋白質(zhì)結(jié)構(gòu),并進(jìn)而指導(dǎo)藥物研發(fā)。

  數(shù)據(jù)和方法

  2019-nCoV蛋白質(zhì)一級(jí)序列提取

2019-nCoV的基因組序列參考NCBI上已公開(kāi)的序列:NC_045512.2。由于基因組注釋數(shù)據(jù)的缺失,無(wú)法直接獲取其所有功能蛋白質(zhì)的一級(jí)序列。因此我們將SARS-CoV的各個(gè)蛋白對(duì)應(yīng)的序列比對(duì)到2019-nCoV基因組上,選擇best match的比對(duì)區(qū)域,作為該蛋白對(duì)應(yīng)的在2019-nCoV的一級(jí)序列。通過(guò)這種方法,我們獲得了2019-nCoV的共計(jì)20個(gè)蛋白質(zhì)的序列,其中包含非結(jié)構(gòu)蛋白16個(gè)(NSP1-16),結(jié)構(gòu)蛋白4個(gè)(S,M,N,E)。

  同源建模

  Swiss model用于同源建模

Swiss-model是自動(dòng)化蛋白質(zhì)同源建模工具,使用的過(guò)程中需要用戶輸入目的蛋白的序列,也可以同時(shí)指定參考蛋白質(zhì)模板,在沒(méi)有指定模板的情況下,系統(tǒng)會(huì)自動(dòng)選擇匹配度最高的模板。

我們?cè)谕ㄟ^(guò)Swiss-model做同源建模的步驟和結(jié)果如下:

  Step 1: 輸入蛋白質(zhì)序列

在swiss-model主頁(yè) (https://swissmodel.expasy.org/) 點(diǎn)擊“Start modeling”并上傳蛋白質(zhì)的fasta序列。點(diǎn)擊“Search For Templates”,開(kāi)始搜索最模板蛋白。

聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

  Step 2: 選擇合適的模板蛋白

Swiss-model會(huì)給出通過(guò)一級(jí)序列匹配到的模板蛋白,以及每一個(gè)模板蛋白的匹配度和模板蛋白的參數(shù),通過(guò)以下標(biāo)準(zhǔn),我們選擇最優(yōu)的模板蛋白用于同源建模:

1. 目的蛋白和模板蛋白一級(jí)序列一致性要求:identity>30%;優(yōu)先選擇identity最高的模板蛋白;

2. 優(yōu)先選擇SARS-COV的模板蛋白用于同源建模;

3. 當(dāng)identity比較相似的時(shí)候,優(yōu)先選擇通過(guò)高精度X-ray方法構(gòu)建晶體結(jié)構(gòu)的模板;如果沒(méi)有X-ray,需要點(diǎn)進(jìn)PDB看蛋白結(jié)構(gòu)分辨率,優(yōu)先選分辨率高的;

4. 如果Oligo State存在有Homo和heter,就兩個(gè)都要選擇。

聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

  Step 3:同源建模

選定好最優(yōu)的模板蛋白之后,點(diǎn)擊頁(yè)面的“Build Models”,即可自動(dòng)的做同源建模;對(duì)于序列比較短的蛋白(<100 殘基),該過(guò)程通常花費(fèi)幾分鐘;對(duì)于序列比較長(zhǎng)的蛋白(>1000 殘基),該過(guò)程通?;ㄙM(fèi)約二十分鐘左右; 建模完成后,可直接下載模板蛋白和目的蛋白的三維空間結(jié)構(gòu)用于后續(xù)的分析。

聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

  Step 4:分子動(dòng)力學(xué)模擬

同源建模得到的蛋白質(zhì)結(jié)構(gòu)可以用于分子動(dòng)力學(xué)(Molecular Dynamics)模擬。分子動(dòng)力學(xué)模擬可以通過(guò)GROMACS等工具完成,這一步驟通常比較耗時(shí)。華為云醫(yī)療智能體平臺(tái)已經(jīng)提供加速版的GROMACS,加速后的GROMACS消耗的時(shí)間僅有傳統(tǒng)版本的1/6。

聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

  結(jié)果

  建模結(jié)果統(tǒng)計(jì)

針對(duì)2019-nCOV的20個(gè)蛋白質(zhì)一級(jí)序列,有15個(gè)蛋白和SARS-COV的蛋白質(zhì)有比較高的同源性,identity>70%;通過(guò)蛋白質(zhì)三維工具可視化之后,也可以看到這些蛋白質(zhì)的三維空間構(gòu)象和模板蛋白比較相似;

其中有一個(gè)蛋白質(zhì),NSP4,在SARS-COV中沒(méi)有很好的同源蛋白,是以小鼠肝炎病毒的A59進(jìn)行建模,其identity>60%;

另外有四個(gè)蛋白質(zhì)的同源建模效果不是很好,其中NSP2,NSP6和M均沒(méi)有很好的目的模板,匹配度最好的蛋白質(zhì)序列的identity < 30%;所以建模的結(jié)果不太理想;同時(shí)NSP11蛋白質(zhì)的長(zhǎng)度只有11個(gè)殘基,長(zhǎng)度太短,不滿足建模要求;

目的蛋白的長(zhǎng)度,模板蛋白的選擇和同源建模的參數(shù)整理在以下的表格中供參考:

聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

  數(shù)據(jù)和可視化

模板蛋白和同源建模得到的2019-nCoV蛋白質(zhì)三維結(jié)構(gòu)都以PDB格式進(jìn)行保存,為了方便用戶查閱,華為云醫(yī)療智能體平臺(tái)的Notebook工具已經(jīng)內(nèi)置了可視化所需要的插件和工具,用戶可以交互式拖動(dòng)和展示感興趣的蛋白質(zhì)三維結(jié)構(gòu)。

聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布

以上涉及到的數(shù)據(jù)、算法和工具都已經(jīng)集成在華為云醫(yī)療智能體平臺(tái),基于華為云AI昇騰集群服務(wù)的強(qiáng)大算力,用戶可省時(shí)省力地完成端到端的分析。

  相關(guān)鏈接

• 醫(yī)療智能體官網(wǎng)

• 抗疫進(jìn)展:華為云聯(lián)合多家科研機(jī)構(gòu)篩選出五種可能有效的抗病毒藥物

AI助力“抗疫”,超大規(guī)模計(jì)算機(jī)輔助藥物篩選技術(shù)解讀

• 2019新型冠狀病毒計(jì)算機(jī)輔助大規(guī)模藥物篩選結(jié)果(Mpro蛋白)

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-02-07
聯(lián)合科研團(tuán)隊(duì):2019新型冠狀病毒所有關(guān)鍵蛋白質(zhì)同源模建結(jié)果和方法公布
面對(duì)當(dāng)前新型冠狀病毒(2019-nCoV)感染肺炎不斷擴(kuò)散的嚴(yán)峻形勢(shì),華為云EI醫(yī)療智能體團(tuán)隊(duì)聯(lián)合華中科技大學(xué)同濟(jì)醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院李巖教授,西安交通大學(xué)第一附屬

長(zhǎng)按掃碼 閱讀全文