新數(shù)據(jù)時代,科研需要什么樣的創(chuàng)新基礎(chǔ)設(shè)施

原標題:新數(shù)據(jù)時代,科研需要什么樣的創(chuàng)新基礎(chǔ)設(shè)施

一直以來,從腦疾病的研究到大腦功能的解密,科學家從未停止過對大腦探索的步伐。在華中科大蘇州腦空間信息研究院,科學家們正在做一件對于腦科學研究具有里程碑意義的事情:繪制一張可能是世界上最復(fù)雜的“地圖”——靈長類全腦的三維圖譜。

以小鼠三維腦圖譜為例,科學家們通常先對小鼠進行腦成像:將鼠腦標本固定,用金剛刀從上至下、從左至右,將鼠腦標本順次切成1微米厚度的薄片,一邊切片一邊拍照,照片實時存儲到計算機系統(tǒng)之中。當鼠腦成像結(jié)束,腦科學家再根據(jù)這些二維照片合成三維腦圖譜。

一個小鼠全腦有超7000萬個神經(jīng)元,繪制小鼠腦圖譜需要15380張圖片,未壓縮的數(shù)據(jù)量高達8TB。人腦的體積大約是小鼠腦的1500倍,擁有860億個神經(jīng)元,人腦的三維圖譜數(shù)據(jù)量將會再提升幾個量級。

現(xiàn)如今,單純的腦成像已經(jīng)不成問題,但成像之后巨大的數(shù)據(jù)量如何存儲和分析成為當下腦科學等多個科研領(lǐng)域最為棘手的挑戰(zhàn)。

是什么阻礙了“腦洞大開”

華中科大蘇州腦空間信息研究院所遇到的情況是科研機構(gòu)在新數(shù)據(jù)時代下的一個縮影。

一方面,得益于國家經(jīng)濟實力的不斷提升,科學研究投入持續(xù)加大。根據(jù)《2019年全國科技經(jīng)費投入統(tǒng)計公報》顯示,2019年全國研究與試驗發(fā)展經(jīng)費首次突破2萬億元,達到22143.6億元,同比增長12.5%。

另一方面,數(shù)字化正在改變科研模式,過去相對薄弱的數(shù)字基礎(chǔ)設(shè)施開始面臨升級,亟需符合未來研發(fā)需求的新型基礎(chǔ)設(shè)施。正如發(fā)改委今年首次明確了新基建的范圍,將支撐科學研究等具有公益性質(zhì)的重大科技、科教基礎(chǔ)設(shè)施劃分為創(chuàng)新基礎(chǔ)設(shè)施,屬于新基建未來重點投入方向。

“當前科研領(lǐng)域在存儲等基礎(chǔ)設(shè)施方面主要有容量、性能和穩(wěn)定性三個典型挑戰(zhàn)?!比A中科技大學計算機學院院長馮丹教授在浪潮云數(shù)智中國行武漢峰會上如是說。

華中科技大學計算機學院院長馮丹教授

與其他行業(yè)相比,數(shù)據(jù)在科研領(lǐng)域的生產(chǎn)要素屬性更加快速顯現(xiàn)??蒲袛?shù)據(jù)往往具有數(shù)據(jù)密集型范式的特點,具有數(shù)據(jù)量巨大的特征。以目前世界上靈敏度最高的射電望遠鏡中國天眼項目為例,每天產(chǎn)生約500TB的零級未壓縮數(shù)據(jù),預(yù)計未來十年數(shù)據(jù)量將超過100PB,對長期運行產(chǎn)生的海量數(shù)據(jù)進行存儲與計算分析正在深刻改變其科研模式,如何存儲與保護這些海量數(shù)據(jù)就成為巨大挑戰(zhàn)。

此外,隨著海量數(shù)據(jù)的產(chǎn)生,科研機構(gòu)通常希望能夠讓數(shù)據(jù)采集、處理和存儲的速度提升,以更好、更快支撐起科學研究。馮丹教授表示:“科研項目對于性能一直很關(guān)注。早年前,像新材料研發(fā)這些研究可能數(shù)據(jù)量不會很大,但對于后端存儲性能要求極高?,F(xiàn)在,科研的數(shù)據(jù)量普遍很大,對于存儲性能的要求就更高了?!?/p>

例如,華中科大蘇州腦空間信息研究院存儲人腦三維圖譜數(shù)據(jù),如果采用之前的成像系統(tǒng),一臺系統(tǒng)至少需要花費20年時間才能完成數(shù)據(jù)的采集,這無疑是當前科研機構(gòu)們所不能接受的,因此需要存儲具有分布式橫向擴展能力,提升其并發(fā)性能,讓數(shù)據(jù)的采集與分析更加快速,確保其研究項目的高效。

第三就是穩(wěn)定和可靠,科研數(shù)據(jù)除了數(shù)據(jù)量之外,高質(zhì)量與完整性也至關(guān)重要,因此對于存儲系統(tǒng)的穩(wěn)定性和可靠性要求越來越高。存儲越穩(wěn)定和可靠,意味著對高質(zhì)量科研數(shù)據(jù)的存儲與完整就越有保障。

以清華大學RUSH腦成像研究項目為例,其對擁有1億神經(jīng)元的小鼠大腦進行研究,28臺1200萬像素相機以每秒30幀、連續(xù)72小時的方式對小鼠進行拍攝,每天將產(chǎn)生2.7PB左右的數(shù)據(jù),最后將這些圖片拼接成三維圖像序列,存儲系統(tǒng)需要滿足最長72小時拍攝過程中PB數(shù)據(jù)不丟幀。

事實上,在新數(shù)據(jù)時代加速到來的今天,包括科研領(lǐng)域的各行各業(yè)都在加快數(shù)字化的步伐,也直接驅(qū)動著存儲等基礎(chǔ)設(shè)施走向新的變革。

為數(shù)字化提速,存儲有哪些重要趨勢

當下,數(shù)據(jù)正在成為最重要的生產(chǎn)要素,是數(shù)字化轉(zhuǎn)型和智能化升級的基礎(chǔ)。年初的《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》報告中首次新增“數(shù)據(jù)”要素,并指出要發(fā)揮“數(shù)據(jù)”這一新型要素對其他要素效率的倍增作用,使數(shù)據(jù)成為推動經(jīng)濟高質(zhì)量發(fā)展的新動能。

這恰恰是新數(shù)據(jù)時代到來的體現(xiàn)。就像科研領(lǐng)域越來越重視數(shù)據(jù)一樣,各行各業(yè)都渴望充分利用數(shù)據(jù)的價值、為數(shù)字化提速,使得與數(shù)據(jù)密切打交道的存儲呈現(xiàn)出重要的新趨勢。“在數(shù)據(jù)呈現(xiàn)爆炸性增長的趨勢下,隨著算力的提升和數(shù)據(jù)的積累,大數(shù)據(jù)智能成為發(fā)展趨勢,也給存儲系統(tǒng)帶來一系列新變化?!瘪T丹教授直言。

馮丹教授介紹,存儲在PCM、3D NAND、3DXPoint等芯片器件上創(chuàng)新,將進一步帶動存儲設(shè)備、系統(tǒng)、架構(gòu)和軟件的創(chuàng)新,“面向大數(shù)據(jù)的存儲首先是以數(shù)據(jù)為中心,圍繞數(shù)據(jù)做相應(yīng)處理,其次是近數(shù)據(jù)處理,在離數(shù)據(jù)最近的地方做處理,減少數(shù)據(jù)傳輸帶來的性能損耗;第三則是實現(xiàn)存算一體化或存算融合,直接在存儲中進行處理。另外,智能相關(guān)技術(shù)也會加速融入到存儲系統(tǒng)之中,提升存儲系統(tǒng)性能、可管理性等。”

浪潮存儲作為近年來存儲市場上快速崛起的代表廠商,則認為未來存儲的發(fā)展理念是“云存智用,運籌新數(shù)據(jù)”,在趨勢上為:云、閃、智。

首先是“云存”,即存儲需要與云進行全面對接。云計算已經(jīng)走向普及,企業(yè)上云的趨勢不可阻擋,混合或者多云環(huán)境將會成為常態(tài)。無論是公有云還是私有云,存儲層實現(xiàn)對它們的對接,將極大有利于數(shù)據(jù)的流動。葉毓睿介紹:“存儲與私有云管理平臺的對接,有利于私有云管理平臺按需驅(qū)動存儲資源的創(chuàng)建、調(diào)整、優(yōu)化甚至回收;而存儲與公有云對接,則有利于更好地使用公有云彈性的資源,讓數(shù)據(jù)流動起來。”

另外,存儲加速實現(xiàn)全閃化也是大勢所趨。借助于閃存介質(zhì)成本的不斷下降、NVMe、RDMA等與閃存相關(guān)的技術(shù)逐漸走向成熟,閃存在存儲系統(tǒng)中的門檻愈發(fā)下降。隨著基于閃存介質(zhì)的技術(shù)堆棧走向完善,全閃存存儲在性能、功能和容量三者之間有望實現(xiàn)“魚與熊掌可兼得”,有望在更多用戶中得到落地。

第三則是存儲快速邁向智能化。一方面,存儲自身會融入更多人工智能技術(shù),根據(jù)業(yè)務(wù)負載、運維管理等數(shù)據(jù)特征,進行不斷的學習與優(yōu)化,從而提供更加精準的預(yù)警信息和執(zhí)行動作。馮丹教授也表示:“融入智能化是存儲的大勢所趨。例如,華中大在研究的主動對象存儲技術(shù)中,最主要體現(xiàn)的就是智能性,讓存儲系統(tǒng)并不是簡單的啞設(shè)備被動響應(yīng)請求,而是會根據(jù)歷史負載預(yù)測未來趨勢,讓存儲系統(tǒng)可以感知應(yīng)用需求,然后采用不同的策略更好地服務(wù)不同的應(yīng)用。”

另一方面,AI技術(shù)正在加速落地,但AI準備、訓練、推理和歸檔等各階段的IO特征不同,對于存儲需求也不同,將會進一步推動AI存儲產(chǎn)品加速到來。“例如,AI在模型訓練階段的IO特征為高并發(fā)、以讀為主的小IO;而推理階段的IO特征是讀寫混合,要求存儲延時低,能夠快速響應(yīng)?!比~毓睿補充道。

為“新數(shù)據(jù)時代”做好準備

IDC《2019年數(shù)據(jù)及存儲發(fā)展研究報告》中指出,新數(shù)據(jù)時代表現(xiàn)出的新數(shù)據(jù)特征:數(shù)據(jù)增長、企業(yè)對實時數(shù)據(jù)需求增加、多云部署模式成趨勢、多元和非結(jié)構(gòu)化數(shù)據(jù)成為常態(tài)。從本質(zhì)上來看,存儲需要為用戶在新數(shù)據(jù)時代下更好地存好、用好和調(diào)度好數(shù)據(jù),為其數(shù)字化轉(zhuǎn)型和智能化升級提供支撐。

在眾多廠商中,浪潮存儲近年來已經(jīng)成為市場中一股不可或缺的力量。根據(jù)IDC最新數(shù)據(jù)顯示,浪潮存儲在今年第二季度出貨量躍居中國第二,增長速度位列中國第一,并且增速遠超其他廠商。這背后是浪潮存儲致力于幫助用戶為“新數(shù)據(jù)時代”做好準備的戰(zhàn)略布局。

浪潮集團云數(shù)智中國行

浪潮存儲在戰(zhàn)略上提出了“云存智用,運籌新數(shù)據(jù)”的理念,打造存儲平臺戰(zhàn)略,重點發(fā)展分布式存儲和閃存存儲等新存儲,并致力于打造存儲七大極致能力,更好地幫助用戶在多元化、應(yīng)用復(fù)雜化的數(shù)據(jù)全局中將數(shù)據(jù)存好、用好和調(diào)度好,更好地發(fā)揮出數(shù)據(jù)價值。

為更好地支撐起“云存智用,運籌新數(shù)據(jù)”理念,浪潮存儲在過去幾年投入了20億元巨資攻關(guān)存儲核心技術(shù)的突破,比如浪潮存儲幾年前開始布局閃存盤,其NVMe SSD已經(jīng)在浪潮服務(wù)器中進行搭載售賣,接下來還會在集中式存儲和分布式存儲中搭載;另外,浪潮存儲在存儲架構(gòu)上將致力于打造出融合分布式和集中式架構(gòu)優(yōu)勢的新存儲架構(gòu),以實現(xiàn)“一個數(shù)據(jù)中心,一套存儲”的愿景目標。

浪潮存儲短短幾年的飛速成長,同樣離不開強大人才體系的打造。浪潮存儲從過去幾十人的規(guī)模如今成長為上千人的團隊,其研發(fā)、市場、銷售人才體系不斷充實與壯大。此外,浪潮存儲還注重與華科大等高校、科研機構(gòu)緊密合作,共同攻關(guān)存儲多項核心技術(shù)的突破。

未來,隨著新基建的建設(shè)逐漸深入,千行百業(yè)必然會在數(shù)字基礎(chǔ)設(shè)施層迎來更大的變化,存儲作為新基建中的基石,其作用與價值將會得到進一步提升。如何為千行百業(yè)提供符合“新數(shù)據(jù)時代”的產(chǎn)品與解決方案,浪潮存儲“厲兵秣馬”,已經(jīng)做好準備。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-09-24
新數(shù)據(jù)時代,科研需要什么樣的創(chuàng)新基礎(chǔ)設(shè)施
例如,華中科大蘇州腦空間信息研究院存儲人腦三維圖譜數(shù)據(jù),如果采用之前的成像系統(tǒng),一臺系統(tǒng)至少需要花費20年時間才能完成數(shù)據(jù)的采集,這無疑是當前科研機構(gòu)們所不能接受的,因此需要存儲具有分布式橫向擴展能力

長按掃碼 閱讀全文