突破數(shù)據(jù)分析瓶頸,尋因生物單細胞測序數(shù)據(jù)分析邁入云時代

  世上沒有兩片完全相同的樹葉,人體內(nèi)的每兩個細胞也是截然不同的。長久以來,基因檢測技術(shù)主要是在組織層面對樣本進行解析,獲得的是成千上萬個細胞的平均值,但這會讓很多信息是被隱匿,對疾病的認知和理解存在很大的障礙。

  單細胞檢測技術(shù)將基因檢測的水平提升到了單細胞的精度,可以揭示每一個細胞的細微變化,對疾病的認知、診療方式的改變、藥物研發(fā)的方式提供了更好的方法。而其中,高通量測序(NGS)技術(shù)因其高度準確性和特異性成為了單細胞測序的理想工具。

  尋因生物,是一家自主研發(fā)單細胞技術(shù)的精準醫(yī)療生物醫(yī)藥企業(yè),致力于通過國產(chǎn)高通量單細胞全鏈條產(chǎn)品及服務,將單細胞技術(shù)普適化,應用于臨床及藥物研發(fā),推動相關(guān)疾病研究。

  通常,單細胞測序工作流程包含單細胞樣本制備、單細胞分離和文庫制備、測序和初級分析、數(shù)據(jù)可視化和解讀四個步驟。作為國內(nèi)獨家擁有微孔芯片與油包水雙技術(shù)平臺的尋因生物來說,單細胞樣本制備、單細胞分離和文庫制備是其強項。同時,尋因生物具有完備的數(shù)據(jù)分析和解讀能力,底層分析計算效率的提升十分必要。

  據(jù)悉,在單細胞測序數(shù)據(jù)分析環(huán)節(jié),業(yè)界普遍存在數(shù)據(jù)量大、分析時間長的挑戰(zhàn)。僅一個單細胞測序文件的大小可達100GB以上,而隨著一個單細胞項目包含的樣本量越來越多,可能產(chǎn)生數(shù)百GB甚至TB級的細胞數(shù)據(jù);同時,單細胞數(shù)據(jù)的分析復雜,需要反復做數(shù)據(jù)讀取和參數(shù)調(diào)整,所以處理海量細胞樣本的分析任務通常需要數(shù)小時甚至數(shù)天才能完成。因此,超大數(shù)據(jù)量和分析復雜性所導致的任務并發(fā)度低和數(shù)據(jù)加載速率慢是未來單細胞分析性能的主要瓶頸之一。

  在單細胞測序數(shù)據(jù)分析過程中,每個細胞的表達量數(shù)據(jù)高達數(shù)十萬條讀取 (reads),產(chǎn)生的數(shù)據(jù)更是要大得多,這種海量級的數(shù)據(jù)分析對云主機的內(nèi)存容量提出了更高的要求。而通用的云主機的內(nèi)存容量與CPU配比有限,單細胞的分析任務常會出現(xiàn)因內(nèi)存不足而導致運行失敗;而選用傳統(tǒng)的大內(nèi)存云主機,不僅要付出更加高昂的成本,而且會造成CPU算力的浪費。所以,內(nèi)存容量的限制使尋因生物不得不將樣本參數(shù)調(diào)低來滿足運行任務。此外,通用的云主機僅能支持運行一個單細胞分析任務,在測序任務多的情況下,尋因生物只能將多任務排隊執(zhí)行,非常耗時;同時,在測序數(shù)據(jù)分析過程中,每次臨時數(shù)據(jù)在磁盤上的導出和加載(IO)過程長達1000秒,隨著數(shù)據(jù)集的持續(xù)增長,這種處理速度阻礙了預期的研究發(fā)現(xiàn)時間。

  當前,尋因生物將單細胞測序分析任務部署在了第三代英特爾® 至強® 可擴展處理器 (代號: Ice Lake) 和 英特爾® 傲騰™ 持久內(nèi)存的阿里云i4p持久內(nèi)存型實例上,并在實例中使用了MemVerge公司開發(fā)的 Memory Machine大內(nèi)存軟件,不但完全消除磁盤讀寫帶來的IO瓶頸,幫助尋因生物成功地運行了多細胞數(shù)、大樣本的測序數(shù)據(jù)分析任務,并能通過Memory Machine的ZeroIO內(nèi)存快照功能使數(shù)據(jù)導出和加載從原來的1000秒降至2.5秒,將數(shù)據(jù)讀取的效率提升了兩個數(shù)量級。

  阿里云i4p持久內(nèi)存實例是阿里云基于英特爾® 傲騰™ 持久內(nèi)存推出的第二代持久內(nèi)存實例,傲騰® 持久內(nèi)存讓高性價比的大容量內(nèi)存與對數(shù)據(jù)持久性的支持巧妙地結(jié)合在一起,將更多數(shù)據(jù)保存在更靠近CPU的地方,加速了大內(nèi)存計算, 可以說重新定義了傳統(tǒng)的兩級存儲架構(gòu)。

  除基本vCPU和內(nèi)存外,阿里云i4p實例還配置了持久內(nèi)存資源,極大地擴展了主機的內(nèi)存容量,讓內(nèi)存中可以存放更多數(shù)據(jù)用于測序數(shù)據(jù)分析,同時并發(fā)運行更多的測序任務,相對于傳統(tǒng)普通大內(nèi)存實例,i4p持久內(nèi)存實例可以幫助用戶打破“內(nèi)存墻”藩籬,獲得更高性能的同時,有效降低整體IT基礎設施擁有成本(TCO)。

  MemVerge開發(fā)的Memory Machine大內(nèi)存虛擬化軟件,可運行在i4p持久內(nèi)存實例中,將其中的持久內(nèi)存和普通內(nèi)存進行融合,可以透明地使用大內(nèi)存資源,無需對應用進行改造,即可充分發(fā)揮持久內(nèi)存的全部性能;其軟件的高級功能“ZeroIO內(nèi)存快照”,可以完全避免臨時數(shù)據(jù)的磁盤IO過程,實現(xiàn)客戶應用性能的飛躍。同時通過阿里云計算巢還實現(xiàn)了Memory Machine大內(nèi)存虛擬化軟件與云平臺的標準化集成,實現(xiàn)快速的軟件交付部署和標準化的運維管理,大幅提升了業(yè)務效率。

  “這能夠使我們的單細胞數(shù)據(jù)分析業(yè)務完全消除IO瓶頸,并在實際的分析任務中將持久內(nèi)存的大容量能力充分利用起來,讓任務的并發(fā)能力提升了5倍以上,且該方案能讓多細胞數(shù),大樣本任務能順利地運行成功,對提高我們生信用戶的業(yè)務吞吐能力和工作效率有非常大的助力。”尋因生物公司生物部張廣鑫表示。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )