運籌新數(shù)據,中山大學精準醫(yī)學中心的新存儲之道

原標題:運籌新數(shù)據,中山大學精準醫(yī)學中心的新存儲之道

什么叫精準醫(yī)學?

百科是這樣定義的:精準醫(yī)學(Precision Medicine)是以個體化醫(yī)療為基礎、隨著基因組測序技術快速進步以及生物信息與大數(shù)據科學的交叉應用而發(fā)展起來的新型醫(yī)學概念與醫(yī)療模式。

定義可能過于學術化,不易于理解,來看看現(xiàn)實中經常遇到的例子:A和B同時患有某種腫瘤疾病,同樣的藥物對于A有效,但對于B卻沒有效果,反而會影響到B的病情;C和D患有不同腫瘤疾病,卻通過同樣的藥物讓病情得到極大緩解。類似情況在癌癥、腫瘤等疾病領域經常出現(xiàn),個體因為遺傳基因、所處環(huán)境和生活方式的不同,在治療反應性上存在著很大的差異。

精準醫(yī)學的出現(xiàn),改變過去“一刀切”的治療方法,通過整合基因組學、蛋白質組學、代謝組學以及相關環(huán)境與生活方式等大數(shù)據信息,為患者精準制定最有效治療方案。事實上,從最早的經驗醫(yī)學到循證醫(yī)學,再到如今的精準醫(yī)學,醫(yī)療模式走向數(shù)字化、精準化已成必然趨勢。

要實現(xiàn)精準醫(yī)學,先決條件在于構建一個巨大的“疾病知識網絡”,其中關鍵在于數(shù)據和大數(shù)據平臺:數(shù)據越豐富、維度越全面,意味著治療方案的決策正確性就越高;大數(shù)據平臺性能強、穩(wěn)定性高、可靠性出色,則可以支撐起整個精準醫(yī)學的長期研究。

那么,精準醫(yī)學的業(yè)務需求有哪些特點,數(shù)據特征情況如何,對于大數(shù)據平臺建設又有哪些核心訴求?作為中國精準醫(yī)學發(fā)展的先行者,中山大學精準醫(yī)學科學中心自籌建伊始就確定了建立醫(yī)學大數(shù)據中心,以大數(shù)據平臺作為核心基礎設施,來采集、存儲、管理和利用數(shù)據,為精準醫(yī)學發(fā)展打了個樣。

一個影響未來五年的選擇題

從2015年起,中山大學精準醫(yī)學科學中心開始籌建,首先需要面臨三件大事:成立樣本庫、建立醫(yī)學大數(shù)據中心和搭建精準醫(yī)學實驗技術平臺。如果從數(shù)字化的角度來看,成立樣本庫相當于構建起一個醫(yī)療相關數(shù)據集合庫;建立醫(yī)學大數(shù)據中心則是為了采集、存儲、管理整個數(shù)據;而精準醫(yī)學實驗技術平臺負責數(shù)據價值最終的輸出。

在三件事情中,醫(yī)學大數(shù)據中心的建設雖然是最底層范疇,卻屬于新基建中典型的創(chuàng)新基礎設施,起到支撐起整個科學研究運轉的關鍵作用。中山大學精準醫(yī)學科學中心在建設醫(yī)學大數(shù)據中心時,面臨著架構的選擇,“第一個是超融合架構,另一個則是采用存算分離架構?!敝猩酱髮W精準醫(yī)學科學中心生物醫(yī)學大數(shù)據平臺高級工程師肖華鋒如是說,“架構的選擇關系著未來五年醫(yī)學大數(shù)據平臺能否有效支撐起精準醫(yī)學業(yè)務研究?!?/p>

中山大學精準醫(yī)學科學中心生物醫(yī)學大數(shù)據平臺 高級工程師肖華鋒

彼時的超融合正是基礎架構領域冉冉升起的明星,受到了業(yè)界、用戶們的廣泛關注,憑借簡化的架構、強大的并發(fā)性能以及便捷的管理等優(yōu)勢,被認為是基礎設施建設的首選。但是,中山大學精準醫(yī)學科學中心經過對精準醫(yī)學數(shù)據類型、業(yè)務特征以及未來應用規(guī)劃進行仔細和反復的調研之后,最終選擇了存算分離架構來構建醫(yī)學大數(shù)據中心。

為什么會舍棄超融合,選擇存算分離的架構?肖華鋒解釋道:“當時決策原因有兩點:一是成本,當時超融合成本高,每個節(jié)點必須配置SSD,加上License費用,采購成本較高;第二則是從場景適用上考慮,精準醫(yī)學科學中心場景中,存儲需求增長速度遠超過計算,超融合擴展是計算與存儲等比例擴展,存算分離架構反而會帶來更加靈活的擴展方式?!?/p>

那么,醫(yī)學大數(shù)據中心采用存算分離架構之后,真實情況會不會出現(xiàn)“理想很豐滿,現(xiàn)實很骨干”的窘境?

讓理想照進現(xiàn)實

從2016年開始,中山大學精準醫(yī)學中心開展生物醫(yī)學大數(shù)據平臺工作,核心是建成數(shù)據匯交、清洗整合、存儲管理、共享交換、隱私保護、開放共享的醫(yī)學大數(shù)據和生命組學數(shù)據兩大數(shù)據庫,并開展醫(yī)學大數(shù)據互聯(lián)共享工程,建立數(shù)據標準體系和安全體系,實現(xiàn)患者醫(yī)學數(shù)據跨系統(tǒng)/區(qū)域互聯(lián)互認、數(shù)據共享工作。

“中山大學精準醫(yī)學中心生物醫(yī)學大數(shù)據平臺真正意義上把附屬醫(yī)院的數(shù)據和中心實現(xiàn)互聯(lián)互通,并實現(xiàn)了數(shù)據交互和存儲?!毙とA鋒介紹道,“不過,數(shù)據增長的確是太快啦?!?/p>

建設之初,生物醫(yī)學大數(shù)據平臺規(guī)劃了浪潮500TB集中式SAN存儲來承載精準醫(yī)學醫(yī)學大數(shù)據平臺的檢索、360隨身檔案系統(tǒng)等核心業(yè)務應用,目前使用近半;規(guī)劃1PB 浪潮分布式存儲AS13000來存儲海量影像數(shù)據,隨著業(yè)務數(shù)據的采集量的增加,不到3年時間,中心的影像存儲已經擴展到了2PB。

浪潮存儲產品

在有海量存儲為數(shù)據增長帶來的容量挑戰(zhàn)兜底之后,如何應對數(shù)據應用帶來的挑戰(zhàn)又是一個難題?!爸行牡臄?shù)據在沒有科研任務的時候基本都是冷數(shù)據,而當課題介入,研究人員需要檢索和分析數(shù)據時,往往周期又很長,可能長達半個月。此時,又希望數(shù)據是熱的?!毙とA鋒介紹道。好在浪潮存儲過去四年一直都平穩(wěn)運行,在容量和性能上都滿足了需求。

未來需要新存儲之道

隨著生物醫(yī)學大數(shù)據平臺和生物樣本庫逐漸完善,精準醫(yī)學相關研究與業(yè)務開始步入快車道,醫(yī)學大數(shù)據中心在存儲上未來又面臨著新的訴求與挑戰(zhàn)。

首先是數(shù)據的增長速度和增長量會比以往還要大,尤其是生物樣本庫建好之后,中山大學精準醫(yī)學科學中心的多組學研究平臺將以此構建起來,包括代謝組學、基因組學等,這些應用的上線與加碼將進一步帶來數(shù)據爆炸性的增長。肖華鋒坦言:“中心的三個基礎平臺、兩個研究平臺和一個應用平臺整體布局逐漸完善之后,預計存儲一年擴展10P將會成為一種常態(tài)?!?/p>

另外,生物醫(yī)學大數(shù)據平臺基于人工智能相關的醫(yī)學研究正在迅速增加,對于存儲容量和性能提出更高挑戰(zhàn)。

“中山大學精準醫(yī)學科學中心是當下用戶對于存儲容量和性能訴求的一個典型代表?!崩顺贝鎯Y深架構師葉毓睿如是說:“面對一個數(shù)字化的智慧時代加速到來,浪潮提出了新存儲之道,讓存儲朝著EB級容量、億級IOPS、TB級帶寬等新能力加速演進,來滿足用戶不斷增長的需求?!?/p>

肖華鋒與葉毓睿接受大數(shù)據在線采訪

其次,中山大學精準醫(yī)學科學中心醫(yī)學大數(shù)據中心還將面臨著新舊設備混用、不同廠商設備混用的情況,加上其數(shù)據量不斷提升,設備數(shù)量也會隨之增加,如何發(fā)揮各種設備的性能以及如何運維管理各種設備就成為極大的挑戰(zhàn)。肖華鋒直言:“我們中心運維人員很少,醫(yī)學數(shù)據類三級等保對運維又有著極為嚴格的要求,迫切需要智能運維技術來減輕壓力?!?/p>

事實上,存儲融入AI技術加速走向智能化正在成為趨勢。存儲根據業(yè)務負載、運維管理等數(shù)據特征,進行不斷的學習與優(yōu)化,從而提供更加精準的預警信息和執(zhí)行動作,讓自身運維與管理走向智能化。葉毓睿介紹:“以浪潮存儲為例,iTurbo智用引擎可以通過智能IO感知、智能多路徑、智能數(shù)據組織、智能資源調度四大核心技術為業(yè)務應用提速;而智能統(tǒng)一存儲管理平臺InView則提供了性能容量預測分析、磁盤故障預測與定位等一系列智能化功能,規(guī)避硬件故障帶來的風險和損失,有效降低運維壓力?!?/p>

總體來看,精準醫(yī)學依然處于起步的初期,中山大學精準醫(yī)學科學中心作為先行者,對于醫(yī)學大數(shù)據中心的建設有著深刻的認知,并且在架構選擇上做出了明智的選擇。未來,隨著精準醫(yī)學研究的不斷深入,中山大學精準醫(yī)學科學中心對于衍生出來的新存儲需求與挑戰(zhàn)也有著清晰的判斷,其精準醫(yī)學研究有望開啟新局面,值得精準醫(yī)學的同仁借鑒與學習。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-11-05
運籌新數(shù)據,中山大學精準醫(yī)學中心的新存儲之道
肖華鋒解釋道:“當時決策原因有兩點:一是成本,當時超融合成本高,每個節(jié)點必須配置SSD,加上License費用,采購成本較高;第二則是從場景適用上考慮,精準醫(yī)學科學中心場景中,存儲需求增長速度遠超過計

長按掃碼 閱讀全文