“五年前,我們很多行業(yè)客戶的數(shù)據(jù)還是以ERP、CRM等數(shù)據(jù)為主,10TB就屬于很大的數(shù)據(jù)量;今天,這些客戶積累的數(shù)據(jù)量通常達(dá)到PB級,像行為數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)增長極為迅速,業(yè)務(wù)形態(tài)也發(fā)生了巨大變化,基于海量數(shù)據(jù)的AI應(yīng)用正在由點(diǎn)到面地鋪開”--一位深耕行業(yè)的ISV如是說。
的確,從智能推薦、對話機(jī)器人,到自動駕駛、風(fēng)險控制、產(chǎn)品檢測,如今AI應(yīng)用正深入到各行各業(yè)之中,對企業(yè)降低成本、改善客戶體驗(yàn)和洞察市場等方面發(fā)揮著巨大作用。IDC最新《全球人工智能支出指南》顯示,2021年全球人工智能領(lǐng)域支出將高達(dá)853億美元,未來五年復(fù)合年增長則高達(dá)24.5%。
不過,隨著AI在行業(yè)各個場景中多點(diǎn)開花,數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素的作用愈發(fā)突出,海量數(shù)據(jù)的采集、存儲、傳輸和應(yīng)用讓存儲層挑戰(zhàn)逐漸放大。可以說,數(shù)據(jù)存儲挑戰(zhàn)已然是AI應(yīng)用之路上最大的攔路虎,如何最大限度地挖掘數(shù)據(jù)價值和推動AI應(yīng)用落地,關(guān)鍵在于解決數(shù)據(jù)存儲的挑戰(zhàn)。
那么,AI應(yīng)用場景的數(shù)據(jù)具有什么樣的特點(diǎn),又會帶來哪些典型的存儲問題?面對AI應(yīng)用帶來的性能、容量和成本挑戰(zhàn),我們又如何對癥下藥?Hitachi Vantara的Hitachi Content Software for File為何要將對象存儲與文件存儲整合在一起,這種舉措對于解決AI帶來的存儲挑戰(zhàn)有何重要價值?
下面讓我們一探究竟。
AI應(yīng)用開啟新局面
過去,應(yīng)用和場景通常是圍繞著業(yè)務(wù)流程展開;如今,幾乎所有的智慧應(yīng)用都是通過數(shù)據(jù)和算法來驅(qū)動。
隨著數(shù)據(jù)被官方確認(rèn)為生產(chǎn)要素,AI應(yīng)用正加速開啟新局面。像《十四五規(guī)劃》全文中,跟“智能”、“智慧”相關(guān)表述就高達(dá)57處,AI正成為中國數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的核心驅(qū)動力之一,愈發(fā)深度融入產(chǎn)業(yè)數(shù)字化和企業(yè)數(shù)字化轉(zhuǎn)型之中。
以華南地區(qū)的制造業(yè)工廠為例,為了提升產(chǎn)品質(zhì)量和檢測效率,大量工廠都在產(chǎn)線之中部署了AI檢測應(yīng)用;如手機(jī)生產(chǎn)流程中每個環(huán)節(jié)都會進(jìn)行拍攝,并利用AI算法對其進(jìn)行不斷的學(xué)習(xí)與訓(xùn)練,實(shí)現(xiàn)大幅降低產(chǎn)品瑕疵率,并提升檢測效率。
在金融領(lǐng)域,AI也正深刻改變業(yè)務(wù)場景。以保險行業(yè)為例,RPA機(jī)器人、智能推薦、語音識別、圖像識別等大量融入到業(yè)務(wù)場景之中,對業(yè)務(wù)效率提升、成本下降和用戶體驗(yàn)改善大有裨益。
在政府、能源、交通等多個行業(yè),AI也正成為重要的生產(chǎn)力工具。Gartner認(rèn)為,到2024年,將會有高達(dá)75%的企業(yè)將從試點(diǎn)轉(zhuǎn)型運(yùn)營AI。而隨著AI深入到更多業(yè)務(wù)場景之中,整個市場也呈現(xiàn)出新的趨勢:
企業(yè)需要更多高質(zhì)量的模型和與之相匹配的業(yè)務(wù)場景;
隨著AI/分析型應(yīng)用的豐富,數(shù)據(jù)驅(qū)動決策成為可能;
數(shù)據(jù)豐富程度將有利于企業(yè)構(gòu)建完整和正確的視圖,再利用AI技術(shù)來實(shí)現(xiàn)營銷、服務(wù)等的改善,真正實(shí)現(xiàn)以客戶為中心;
企業(yè)對于數(shù)據(jù)采集、存儲、管理和安全等合規(guī)性要求會越來越高。
因此,越來越多企業(yè)在AI應(yīng)用中感受到數(shù)據(jù)所帶來的挑戰(zhàn),而且這種挑戰(zhàn)跟以往很不一樣。
數(shù)據(jù)不該成為AI攔路虎
在了解AI應(yīng)用帶來的數(shù)據(jù)挑戰(zhàn)之前,我們需要清楚AI應(yīng)用場景會產(chǎn)生什么樣的數(shù)據(jù)、這些數(shù)據(jù)具有什么特點(diǎn)、AI應(yīng)用對于數(shù)據(jù)存儲都會有哪些要求。
事實(shí)上,當(dāng)前大量的AI/分析型場景之中,海量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為常態(tài),每張圖片/每個文件通常很小,但數(shù)量級極高。像在金融行業(yè),金融業(yè)務(wù)不僅有大量原始票據(jù)通過掃描形成圖片和描述信息文件,還有電子合同、簽名數(shù)據(jù)、人臉識別數(shù)據(jù)等,金融行業(yè)影像數(shù)據(jù)一般單個文件大小為幾KB或幾百KB,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量甚至可以高達(dá)數(shù)十億級規(guī)模,并且還在逐年增長。
具體到AI應(yīng)用的環(huán)境,首先數(shù)據(jù)需要進(jìn)行準(zhǔn)備和清洗,將原始數(shù)據(jù)去重、去除格式錯誤、去除錯誤數(shù)據(jù)和啟發(fā)式回填,將數(shù)據(jù)轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型所需要的格式,這個處理階段通常具有典型I/O極其密集的特征,需要數(shù)據(jù)緩存基礎(chǔ)設(shè)施實(shí)時執(zhí)行。
進(jìn)入到AI訓(xùn)練階段,以機(jī)器學(xué)習(xí)經(jīng)常用到的DNN(深度神經(jīng)網(wǎng)絡(luò))為例,像卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等都是模型復(fù)雜的深度神經(jīng)網(wǎng)絡(luò),并且需要利用高度并行的技術(shù)來實(shí)現(xiàn),這些模型需要大量經(jīng)過清洗和標(biāo)記的數(shù)據(jù)來訓(xùn)練,通常數(shù)據(jù)集的大小是PB級,涉及到大量的隨機(jī)、小型(KB)級讀取操作,對于存儲的吞吐量、延遲要求極高。
以O(shè)penAI去年發(fā)布的GPT-3模型為例,模型參數(shù)高達(dá)1750億個,預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB,最大層數(shù)高達(dá)96層,無論是模型規(guī)模、數(shù)據(jù)量、訓(xùn)練層數(shù)都呈現(xiàn)指數(shù)級的增長趨勢。
當(dāng)AI進(jìn)入到推理和模型部署階段,對于數(shù)據(jù)延遲又非常敏感,所部署的訓(xùn)練好的模型需要近乎實(shí)時化分析數(shù)據(jù),對于數(shù)據(jù)存儲性能要求極高。此外,部署模型中所處理的數(shù)據(jù)都需要重新存儲,并與訓(xùn)練數(shù)據(jù)重新整合,進(jìn)而讓模型不斷訓(xùn)練、改進(jìn)和優(yōu)化,這個過程對于數(shù)據(jù)存儲系統(tǒng)的性能、容量也是極大考驗(yàn)。
綜合來看,過去的存儲系統(tǒng)在存儲架構(gòu)、元數(shù)據(jù)管理、緩存管理等環(huán)節(jié)都是為傳統(tǒng)業(yè)務(wù)場景而設(shè)計。進(jìn)入到AI時代,面對海量非結(jié)構(gòu)化數(shù)據(jù)場景,傳統(tǒng)存儲在性能、容量、擴(kuò)展性、成本等方面都捉襟見肘,很難勝任各種AI應(yīng)用的要求。
HCSF:為AI應(yīng)用提速
事實(shí)上,如果仔細(xì)分析AI應(yīng)用涉及到的數(shù)據(jù)采集、整合、傳輸、存儲、管理和應(yīng)用,會發(fā)現(xiàn)當(dāng)前很多企業(yè)往往是通過選擇不同架構(gòu)的數(shù)據(jù)存儲產(chǎn)品來滿足需求,造成在性能、可擴(kuò)展性和易用性之間妥協(xié)。
例如,為了滿足擴(kuò)展性和容量的需求,很多企業(yè)之前會嘗試部署橫向擴(kuò)展NAS,但是傳統(tǒng)NAS幾乎都是為大文件場景而設(shè)計,對于AI應(yīng)用涉及到的海量小文件場景非常容易造成性能瓶頸;而為了速度,通常會選擇基于塊的全閃陣列,但是規(guī)模和共享方面又會受到限制。
那么,針對AI應(yīng)用,在數(shù)據(jù)存儲層面能否通過一套方案覆蓋AI應(yīng)用所有存儲工作流,并且能夠全面平衡性能、擴(kuò)展性、容量、易用性和成本?如今,Hitachi Vantara的Hitachi Content Software for File(HCSF)為我們打開了新思路,提供了一種切實(shí)可行的方案。
首先,作為全新的分布式文件系統(tǒng)和管理解決方案,Hitachi Content Software for File專為AI/分析型應(yīng)用等超高性能和大容量應(yīng)用而設(shè)計,充分發(fā)揮分布式文件系統(tǒng)和對象存儲的優(yōu)勢,采用共享存儲架構(gòu)來消除性能瓶頸,可以輕松、獨(dú)立地擴(kuò)展計算和存儲資源,并且利用緊耦合的單一解決方案,提供與硬件設(shè)備類似的高性能體驗(yàn)。
例如,用戶將NVMe高性能存儲和對象存儲進(jìn)行完美集成,通過Weka文件系統(tǒng)可以獨(dú)立擴(kuò)展性能和容量:如果需要更強(qiáng)的性能,通過擴(kuò)展NVMe存儲即可;而如果需要更多容量,添加更多對象存儲即可。
其次,Hitachi Content Software for File為整個數(shù)據(jù)管理提供單一平臺,實(shí)現(xiàn)了基于元數(shù)據(jù)的數(shù)據(jù)管理自動化和智能化,實(shí)現(xiàn)跨越邊緣、核心和云的數(shù)據(jù)管理,消除數(shù)據(jù)孤島和多副本情況,單一命名空間也無需管理各層之間的數(shù)據(jù)移動,大幅簡化了AI應(yīng)用帶來的復(fù)雜數(shù)據(jù)管理工作。
另外,Hitachi Content Software for File還擁有出色的靈活性,具備可以對接云的擴(kuò)展能力。例如,HCSF的快照功能,可以推送到任何S3對象存儲,將快照數(shù)據(jù)存儲在云中,以方便日后使用,讓基礎(chǔ)設(shè)施根據(jù)應(yīng)用狀況來隨時調(diào)整工作負(fù)載資源,變得更加敏捷和靈活,廣泛滿足人工智能、機(jī)器學(xué)習(xí)和分析型程序的需求。
總體來看,Hitachi Content Software for File切中了當(dāng)前AI應(yīng)用的數(shù)據(jù)存儲痛點(diǎn),實(shí)現(xiàn)了數(shù)據(jù)存儲在性能、容量、擴(kuò)展性、易用性和成本之間的平衡。面向未來,隨著企業(yè)數(shù)字化轉(zhuǎn)型的逐漸深入,會有越來越多AI應(yīng)用成為企業(yè)的核心業(yè)務(wù),數(shù)據(jù)存儲不應(yīng)該成為AI應(yīng)用的攔路虎,而Hitachi Content Software for File解決方案的推出,有望幫助企業(yè)進(jìn)一步釋放數(shù)據(jù)潛力,也必然會給企業(yè)數(shù)字化轉(zhuǎn)型和AI應(yīng)用全面落地帶來更多價值。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。