激情综合五月亚洲婷婷,2019中文字幕无码

“五年前，我們很多行業(yè)客戶的數(shù)據(jù)還是以ERP、CRM等數(shù)據(jù)為主，10TB就屬于很大的數(shù)據(jù)量；今天，這些客戶積累的數(shù)據(jù)量通常達到PB級，像行為數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)增長極為迅速，業(yè)務(wù)形態(tài)也發(fā)生了巨大變化，基于海量數(shù)據(jù)的AI應(yīng)用正在由點到面地鋪開”--一位深耕行業(yè)的ISV如是說。

的確，從智能推薦、對話機器人，到自動駕駛、風(fēng)險控制、產(chǎn)品檢測，如今AI應(yīng)用正深入到各行各業(yè)之中，對企業(yè)降低成本、改善客戶體驗和洞察市場等方面發(fā)揮著巨大作用。IDC最新《全球人工智能支出指南》顯示，2021年全球人工智能領(lǐng)域支出將高達853億美元，未來五年復(fù)合年增長則高達24.5%。

不過，隨著AI在行業(yè)各個場景中多點開花，數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素的作用愈發(fā)突出，海量數(shù)據(jù)的采集、存儲、傳輸和應(yīng)用讓存儲層挑戰(zhàn)逐漸放大?？梢哉f，數(shù)據(jù)存儲挑戰(zhàn)已然是AI應(yīng)用之路上最大的攔路虎，如何最大限度地挖掘數(shù)據(jù)價值和推動AI應(yīng)用落地，關(guān)鍵在于解決數(shù)據(jù)存儲的挑戰(zhàn)。

那么，AI應(yīng)用場景的數(shù)據(jù)具有什么樣的特點，又會帶來哪些典型的存儲問題？面對AI應(yīng)用帶來的性能、容量和成本挑戰(zhàn)，我們又如何對癥下藥？Hitachi Vantara的Hitachi Content Software for File為何要將對象存儲與文件存儲整合在一起，這種舉措對于解決AI帶來的存儲挑戰(zhàn)有何重要價值？

下面讓我們一探究竟。

AI應(yīng)用開啟新局面

過去，應(yīng)用和場景通常是圍繞著業(yè)務(wù)流程展開；如今，幾乎所有的智慧應(yīng)用都是通過數(shù)據(jù)和算法來驅(qū)動。

隨著數(shù)據(jù)被官方確認(rèn)為生產(chǎn)要素，AI應(yīng)用正加速開啟新局面。像《十四五規(guī)劃》全文中，跟“智能”、“智慧”相關(guān)表述就高達57處，AI正成為中國數(shù)字經(jīng)濟高質(zhì)量發(fā)展的核心驅(qū)動力之一，愈發(fā)深度融入產(chǎn)業(yè)數(shù)字化和企業(yè)數(shù)字化轉(zhuǎn)型之中。

以華南地區(qū)的制造業(yè)工廠為例，為了提升產(chǎn)品質(zhì)量和檢測效率，大量工廠都在產(chǎn)線之中部署了AI檢測應(yīng)用；如手機生產(chǎn)流程中每個環(huán)節(jié)都會進行拍攝，并利用AI算法對其進行不斷的學(xué)習(xí)與訓(xùn)練，實現(xiàn)大幅降低產(chǎn)品瑕疵率，并提升檢測效率。

在金融領(lǐng)域，AI也正深刻改變業(yè)務(wù)場景。以保險行業(yè)為例，RPA機器人、智能推薦、語音識別、圖像識別等大量融入到業(yè)務(wù)場景之中，對業(yè)務(wù)效率提升、成本下降和用戶體驗改善大有裨益。

在政府、能源、交通等多個行業(yè)，AI也正成為重要的生產(chǎn)力工具。Gartner認(rèn)為，到2024年，將會有高達75%的企業(yè)將從試點轉(zhuǎn)型運營AI。而隨著AI深入到更多業(yè)務(wù)場景之中，整個市場也呈現(xiàn)出新的趨勢：

企業(yè)需要更多高質(zhì)量的模型和與之相匹配的業(yè)務(wù)場景;

隨著AI/分析型應(yīng)用的豐富，數(shù)據(jù)驅(qū)動決策成為可能;

數(shù)據(jù)豐富程度將有利于企業(yè)構(gòu)建完整和正確的視圖，再利用AI技術(shù)來實現(xiàn)營銷、服務(wù)等的改善，真正實現(xiàn)以客戶為中心;

企業(yè)對于數(shù)據(jù)采集、存儲、管理和安全等合規(guī)性要求會越來越高。

因此，越來越多企業(yè)在AI應(yīng)用中感受到數(shù)據(jù)所帶來的挑戰(zhàn)，而且這種挑戰(zhàn)跟以往很不一樣。

數(shù)據(jù)不該成為AI攔路虎

在了解AI應(yīng)用帶來的數(shù)據(jù)挑戰(zhàn)之前，我們需要清楚AI應(yīng)用場景會產(chǎn)生什么樣的數(shù)據(jù)、這些數(shù)據(jù)具有什么特點、AI應(yīng)用對于數(shù)據(jù)存儲都會有哪些要求。

事實上，當(dāng)前大量的AI/分析型場景之中，海量非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為常態(tài)，每張圖片/每個文件通常很小，但數(shù)量級極高。像在金融行業(yè)，金融業(yè)務(wù)不僅有大量原始票據(jù)通過掃描形成圖片和描述信息文件，還有電子合同、簽名數(shù)據(jù)、人臉識別數(shù)據(jù)等，金融行業(yè)影像數(shù)據(jù)一般單個文件大小為幾KB或幾百KB，非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量甚至可以高達數(shù)十億級規(guī)模，并且還在逐年增長。

具體到AI應(yīng)用的環(huán)境，首先數(shù)據(jù)需要進行準(zhǔn)備和清洗，將原始數(shù)據(jù)去重、去除格式錯誤、去除錯誤數(shù)據(jù)和啟發(fā)式回填，將數(shù)據(jù)轉(zhuǎn)換為機器學(xué)習(xí)模型所需要的格式，這個處理階段通常具有典型I/O極其密集的特征，需要數(shù)據(jù)緩存基礎(chǔ)設(shè)施實時執(zhí)行。

進入到AI訓(xùn)練階段，以機器學(xué)習(xí)經(jīng)常用到的DNN（深度神經(jīng)網(wǎng)絡(luò)）為例，像卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等都是模型復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)，并且需要利用高度并行的技術(shù)來實現(xiàn)，這些模型需要大量經(jīng)過清洗和標(biāo)記的數(shù)據(jù)來訓(xùn)練，通常數(shù)據(jù)集的大小是PB級，涉及到大量的隨機、小型（KB）級讀取操作，對于存儲的吞吐量、延遲要求極高。

以O(shè)penAI去年發(fā)布的GPT-3模型為例，模型參數(shù)高達1750億個，預(yù)訓(xùn)練數(shù)據(jù)量高達45TB，最大層數(shù)高達96層，無論是模型規(guī)模、數(shù)據(jù)量、訓(xùn)練層數(shù)都呈現(xiàn)指數(shù)級的增長趨勢。

當(dāng)AI進入到推理和模型部署階段，對于數(shù)據(jù)延遲又非常敏感，所部署的訓(xùn)練好的模型需要近乎實時化分析數(shù)據(jù)，對于數(shù)據(jù)存儲性能要求極高。此外，部署模型中所處理的數(shù)據(jù)都需要重新存儲，并與訓(xùn)練數(shù)據(jù)重新整合，進而讓模型不斷訓(xùn)練、改進和優(yōu)化，這個過程對于數(shù)據(jù)存儲系統(tǒng)的性能、容量也是極大考驗。

綜合來看，過去的存儲系統(tǒng)在存儲架構(gòu)、元數(shù)據(jù)管理、緩存管理等環(huán)節(jié)都是為傳統(tǒng)業(yè)務(wù)場景而設(shè)計。進入到AI時代，面對海量非結(jié)構(gòu)化數(shù)據(jù)場景，傳統(tǒng)存儲在性能、容量、擴展性、成本等方面都捉襟見肘，很難勝任各種AI應(yīng)用的要求。

HCSF：為AI應(yīng)用提速

事實上，如果仔細分析AI應(yīng)用涉及到的數(shù)據(jù)采集、整合、傳輸、存儲、管理和應(yīng)用，會發(fā)現(xiàn)當(dāng)前很多企業(yè)往往是通過選擇不同架構(gòu)的數(shù)據(jù)存儲產(chǎn)品來滿足需求，造成在性能、可擴展性和易用性之間妥協(xié)。

例如，為了滿足擴展性和容量的需求，很多企業(yè)之前會嘗試部署橫向擴展NAS，但是傳統(tǒng)NAS幾乎都是為大文件場景而設(shè)計，對于AI應(yīng)用涉及到的海量小文件場景非常容易造成性能瓶頸；而為了速度，通常會選擇基于塊的全閃陣列，但是規(guī)模和共享方面又會受到限制。

那么，針對AI應(yīng)用，在數(shù)據(jù)存儲層面能否通過一套方案覆蓋AI應(yīng)用所有存儲工作流，并且能夠全面平衡性能、擴展性、容量、易用性和成本？如今，Hitachi Vantara的Hitachi Content Software for File（HCSF）為我們打開了新思路，提供了一種切實可行的方案。

首先，作為全新的分布式文件系統(tǒng)和管理解決方案，Hitachi Content Software for File專為AI/分析型應(yīng)用等超高性能和大容量應(yīng)用而設(shè)計，充分發(fā)揮分布式文件系統(tǒng)和對象存儲的優(yōu)勢，采用共享存儲架構(gòu)來消除性能瓶頸，可以輕松、獨立地擴展計算和存儲資源，并且利用緊耦合的單一解決方案，提供與硬件設(shè)備類似的高性能體驗。

例如，用戶將NVMe高性能存儲和對象存儲進行完美集成，通過Weka文件系統(tǒng)可以獨立擴展性能和容量：如果需要更強的性能，通過擴展NVMe存儲即可；而如果需要更多容量，添加更多對象存儲即可。

其次，Hitachi Content Software for File為整個數(shù)據(jù)管理提供單一平臺，實現(xiàn)了基于元數(shù)據(jù)的數(shù)據(jù)管理自動化和智能化，實現(xiàn)跨越邊緣、核心和云的數(shù)據(jù)管理，消除數(shù)據(jù)孤島和多副本情況，單一命名空間也無需管理各層之間的數(shù)據(jù)移動，大幅簡化了AI應(yīng)用帶來的復(fù)雜數(shù)據(jù)管理工作。

另外，Hitachi Content Software for File還擁有出色的靈活性，具備可以對接云的擴展能力。例如，HCSF的快照功能，可以推送到任何S3對象存儲，將快照數(shù)據(jù)存儲在云中，以方便日后使用，讓基礎(chǔ)設(shè)施根據(jù)應(yīng)用狀況來隨時調(diào)整工作負(fù)載資源，變得更加敏捷和靈活，廣泛滿足人工智能、機器學(xué)習(xí)和分析型程序的需求。

總體來看，Hitachi Content Software for File切中了當(dāng)前AI應(yīng)用的數(shù)據(jù)存儲痛點，實現(xiàn)了數(shù)據(jù)存儲在性能、容量、擴展性、易用性和成本之間的平衡。面向未來，隨著企業(yè)數(shù)字化轉(zhuǎn)型的逐漸深入，會有越來越多AI應(yīng)用成為企業(yè)的核心業(yè)務(wù)，數(shù)據(jù)存儲不應(yīng)該成為AI應(yīng)用的攔路虎，而Hitachi Content Software for File解決方案的推出，有望幫助企業(yè)進一步釋放數(shù)據(jù)潛力，也必然會給企業(yè)數(shù)字化轉(zhuǎn)型和AI應(yīng)用全面落地帶來更多價值。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

釋放數(shù)據(jù)潛力，為AI應(yīng)用提速是關(guān)鍵

下一篇