一位北漂創(chuàng)業(yè)的朋友,看過《長安三萬里》之后,被感動得淚流滿面。在他看來,自己和李白一樣,都是被繁榮的盛唐氣象所吸引,為了追逐“心中的長安”而一往無前。
一代人又一代人的“長安”,都渴望站到時代最核心的舞臺上,實現(xiàn)理想、建功立業(yè)。數(shù)字經(jīng)濟,應(yīng)該是我們這一代人,所擁有的黃金機會。
今年以來,大模型這樣火爆的創(chuàng)新方向,以及由此而生的巨大機會,就像光輝萬丈的長安一樣,代表著增長、繁華,以及無限可能性,吸引著無數(shù)企業(yè)和創(chuàng)業(yè)者,想要投身其中。
然而,“夢到長安三萬里,海風吹斷磧西頭”,長安是理想,和現(xiàn)實之間,隔著三萬里路,并不容易抵達。
很多企業(yè)入局研發(fā)或應(yīng)用大模型,卻沒有做好技術(shù)、成本、基礎(chǔ)設(shè)施等一系列準備,就盲目踏上了旅程,其中的首要考驗,就是存儲。
IDC的《數(shù)據(jù)時代2025》報告顯示,全球數(shù)據(jù)規(guī)模呈現(xiàn)井噴式增長,中國將成為全球最大數(shù)據(jù)源。海量數(shù)據(jù)中,語音、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)約占80%,與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)增長迅速、管理困難。存儲降本,成為企業(yè)IT基礎(chǔ)設(shè)施建設(shè)的重要議題。
舉個例子,互聯(lián)網(wǎng)企業(yè)/金融機構(gòu)等普遍開展的數(shù)字化業(yè)務(wù),有大量的音視頻文件存儲需求,需要龐大的存儲資源。政府電子檔案要求保存周期為5年甚至更長,公檢法司數(shù)據(jù)要求保存周期至少30年以上……這些數(shù)據(jù)普遍處于10PB以上規(guī)模,假設(shè)歸檔存儲按0.001元/GB/年計費,則用戶30年存儲成本將超過1億元。
根據(jù)專家訪談,考慮行業(yè)及規(guī)模差異,企業(yè)存儲成本約占IT基礎(chǔ)設(shè)施整體成本的5%~30%,隨著數(shù)據(jù)規(guī)模持續(xù)擴大,這一比例也將進一步加劇,帶來的存儲成本也不可小覷。
AIGC、大模型等智能化應(yīng)用,海量非結(jié)構(gòu)化數(shù)據(jù)對存儲的極致成本效益提出了挑戰(zhàn),CPU、內(nèi)存、磁盤三種資源的動態(tài)配比常常顧此失彼,存在浪費現(xiàn)象,日積月累形成了不小的成本壓力。
這樣看來,數(shù)據(jù)大爆炸的背景下,降低存儲成本,已經(jīng)成為各行各業(yè)數(shù)字化轉(zhuǎn)型、智能化升級的前置條件。
這時候,京東云的真實業(yè)務(wù)實踐和技術(shù)累積優(yōu)勢,就顯現(xiàn)了出來。京東用二十年時間走過了數(shù)字化之路,已經(jīng)構(gòu)筑了支撐大規(guī)模業(yè)務(wù)的存儲基礎(chǔ)設(shè)施,并大規(guī)模應(yīng)用于京東的各類業(yè)務(wù)之中。京東云既解決了存儲基礎(chǔ)設(shè)施方面的技術(shù)難題,也對存儲成本進行了極致優(yōu)化,讓存儲降本成為現(xiàn)實。
因此,數(shù)字經(jīng)濟的《存儲三萬里》該怎么跨越?我們不妨通過京東云自研分布式統(tǒng)一存儲平臺——“云海”,來一探究竟。
數(shù)字盛世,存儲關(guān)山
試想一下,如果李白帶著幾大車沉重的行李,可能還沒走到長安,就已經(jīng)被行李負擔拖慢了速度,被盜匪劫走了財物,為雇人保護行裝而花光儲蓄……而被勸退了?!般y鞍照白馬,颯沓如流星”,輕裝上路,才有了詩仙的肆意飛揚、浪漫灑脫。
對數(shù)字化企業(yè)/政府來說,最寶貴的資產(chǎn)就是數(shù)據(jù)。而以SAN、NAS等集中式存儲為代表的傳統(tǒng)存儲,就像馬馱肩扛的行囊一樣,在保存騰挪數(shù)據(jù)資產(chǎn)時,顯得愈發(fā)捉襟見肘。
不僅會帶來高昂的建設(shè)和維護成本,一旦遭遇外部威脅或故障,就容易影響業(yè)務(wù)的連續(xù)性,損傷用戶體驗,增加了運維復(fù)雜度和數(shù)據(jù)丟失風險。而且其擴展能力有限,無法很好支撐大模型這類大容量、高并發(fā)、高性能的應(yīng)用場景。
所以,更加快速安全、敏捷靈活的分布式存儲,成為一種強烈的需求,演化為存儲的“今日之選”。
與傳統(tǒng)集中式存儲相比,分布式存儲采用松耦合的系統(tǒng)架構(gòu),每個存儲服務(wù)器節(jié)點都承擔數(shù)據(jù)存儲的功能,可以橫向擴展、性能和容量隨節(jié)點數(shù)量擴展線性提升,支持全冗余部署,保障業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全性。
相當于李白們從西域到長安,不用全程將行囊背在身上,可以把沿途的多個城市當作站點,分別設(shè)成各自獨立的存儲節(jié)點,用統(tǒng)一的賬冊(軟件系統(tǒng))進行調(diào)度管理,省去了全程保存看守維護遷移的開銷和人力成本。即使途中出現(xiàn)了意外,也可以通過其他站點快速解決,不影響后續(xù)的行程(業(yè)務(wù)),將損失降到最低。
在此基礎(chǔ)上,“存算分離”技術(shù)應(yīng)運而生。存算一體的架構(gòu)下,計算和存儲中只要有一個達到瓶頸,都會影響整體性能,導(dǎo)致業(yè)務(wù)應(yīng)用停滯,存在大量的資源浪費,同時運維復(fù)雜、擴展受限、升級困難。而依托云平臺的分布式存儲,采用“存算分離”,可以將數(shù)據(jù)通過云上數(shù)據(jù)湖/倉庫基礎(chǔ)設(shè)施來存儲,由微服務(wù)直接訪問存取,無論是應(yīng)用/數(shù)據(jù)哪個環(huán)節(jié)出了問題,都可以依托云平臺的彈性和可擴展能力,快速解決。
可以簡單理解為,將行李(數(shù)據(jù)存儲)和用途(應(yīng)用計算)分開,單獨按需配置。這樣就可以避免行李多用不完(資源浪費)或者行李少不夠用(資源不足),優(yōu)化計算資源利用率,旅客的綜合成本就減少了,這是前往長安(數(shù)字化轉(zhuǎn)型)成本最優(yōu)的存儲方案。
但是,實現(xiàn)存算分離的分布式存儲架構(gòu),并非易事。主要面臨以下問題:
1.性能損失。
存算分離有兩種實現(xiàn)方式:一是自建機房,另一種是上云。自行部署存儲系統(tǒng),初始投資成本高,需要購買的硬件設(shè)備和該有的冗余副本一個也不能少。所以,絕大多數(shù)企業(yè)都選擇交給云廠商,在云上構(gòu)建存算分離架構(gòu),用戶只需要按量付費。
但傳統(tǒng)的云上分布式存儲性能低下,讀寫慢、性能低于本地盤50%-70%,對于智能汽車、游戲等性能敏感型行業(yè),延遲、卡頓問題十分明顯,強行做存算分離,性能無法滿足業(yè)務(wù)正常需求,所以企業(yè)不敢用、也用不了。
2.降本不明顯。
自建機房中的存算分離架構(gòu),即使釋放了計算節(jié)點,也無法收回成本,動態(tài)縮容是沒有意義的,動態(tài)擴容又受到機房容量的影響,如果事先按照業(yè)務(wù)高峰規(guī)劃了資源,那么在低谷時即使釋放了計算節(jié)點,資源浪費的現(xiàn)象也依然存在。此外,分布式存儲各集群的管理要求有差異,運維難度隨之上升,風險預(yù)警難,故障定位慢,需要投入非常高的運維成本。
相比之下,云上的存算分離架構(gòu),這些條件由云服務(wù)商保障,在釋放計算節(jié)點后,云廠商可以將這部分資源銷售給其他客戶,通過龐大的客戶群將高昂成本進行攤銷,對用戶來說,是成本更低的方案。這就要求云存儲服務(wù)商在用戶規(guī)模、成本優(yōu)勢上,拉開顯著差距。
3.可靠性存疑。
分布式存儲分為開源和自研兩條路線,目前主流的開源技術(shù)如Ceph、Swift、HDFS、GlusterFS、Lustre,均為國外技術(shù)并托管在國外開源社區(qū),存在一定的供應(yīng)鏈風險。在大規(guī)模部署時,開源存儲產(chǎn)品的穩(wěn)定性和安全性存在一定挑戰(zhàn)。作為數(shù)據(jù)基礎(chǔ)設(shè)施的存儲,進行國產(chǎn)化替代,尤其需要注重自研能力,廠商對存儲系統(tǒng)的性能、穩(wěn)定性、安全性具備完全控制權(quán),保證產(chǎn)品的性能和穩(wěn)定性,最大化降低用戶應(yīng)用風險。對廠商的資金實力、研發(fā)能力、產(chǎn)品迭代優(yōu)化等,提出了較高的要求。
可以看到,數(shù)據(jù)大爆發(fā)的時代背景下,存算分離架構(gòu)會越來越有優(yōu)勢。
從集中式存儲到分布式存儲只是第一步,第二次升級是做到真正的存算分離,才能支撐大模型、AIGC、自動駕駛等高質(zhì)量存儲訴求,推動存儲產(chǎn)品向更先進的存算分離架構(gòu)演進,急需實力絕群、自主創(chuàng)新的技術(shù)力量帶來改變。
先進存儲,云海為橋
李白在《關(guān)山月》中寫道:明月出天山,蒼茫云海間。長風幾萬里,吹度玉門關(guān)。橫亙在李白們和長安之間的迢迢路途,有沒有一條“捷徑”呢?
2012年,率先踏上數(shù)字化行程的京東,正式開啟自研存儲產(chǎn)品的研發(fā),經(jīng)過十余年的發(fā)展,這些關(guān)于存儲的經(jīng)驗,都凝結(jié)為京東云的思考,以及自研分布式統(tǒng)一存儲平臺“云?!钡暮诵哪芰?。
具體來說,傳統(tǒng)分布式存儲像是地上的路,而“云?!备袷且蛔边_的橋,跨越了重重關(guān)卡,更快抵達先進存儲的目的地。
第一,性能關(guān)。
零售電商高并發(fā)的業(yè)務(wù)特點以及金融對安全穩(wěn)定的剛性需求,深刻影響著京東云對存儲穩(wěn)定性的理解及要求。在京東618奇跡的背后,離不開的極致性能與堅如磐石的穩(wěn)定性支撐。
性能,對于電商直播、游戲、AI訓練、自動駕駛等高性能計算場景是必備剛需。以AI訓練為例,大模型參數(shù)規(guī)模已向萬億級邁進,數(shù)據(jù)的讀寫速度、搬運速度與吞吐量,會直接影響到模型訓練效率。要縮短業(yè)務(wù)模型的訓練迭代周期,底層存儲必須具備極高的性能指標和并發(fā)能力。
作為京東云十年磨一劍的分布式存儲產(chǎn)品,云海支持全冗余部署、多機房災(zāi)備,并不斷融入無leader非仲裁協(xié)議、智能流控、智能化運維等技術(shù),持續(xù)突破穩(wěn)定性的能力極限。
同時,通過架構(gòu)的革新,云海實現(xiàn)了跨越式的性能提升,在這兩年的京東618中,基于云海的存算分離系統(tǒng)架構(gòu),使得原本由于性能問題很難全面實施的存算分離得以落地,面對吞吐量TB/s、IOPS上億級的壓力,依然能夠提供順滑的存儲體驗。
極致性能和穩(wěn)定性支撐,讓“云海”能夠滿足新興復(fù)雜應(yīng)用和井噴數(shù)據(jù)規(guī)模的存儲需求。
第二,成本關(guān)。
無論業(yè)務(wù)規(guī)模大或小,IT基礎(chǔ)設(shè)施的降本是企業(yè)永恒的追求。以京東為例,截至2023年Q2,京東在自營商品SKU達到千萬級的基礎(chǔ)上,庫存周轉(zhuǎn)天數(shù)繼續(xù)保持著31.7天的全球領(lǐng)先水平,運營著超1600個物流倉庫,超過56萬名員工。如此龐大復(fù)雜體系的高效運轉(zhuǎn),每天產(chǎn)生著海量的數(shù)據(jù),如何以最低的成本來存儲,成為云海必須要解決的問題。
云海通過高性能支撐上層應(yīng)用存算分離、EC超低冗余技術(shù)等,大幅提升磁盤物理使用率、得盤率與存儲密度,全面優(yōu)化存儲成本。
今天,云海已實現(xiàn)1.1x級別副本的超低冗余存儲,以及行業(yè)內(nèi)最大規(guī)模QLC-SSD的落地,成本技術(shù)指標領(lǐng)跑行業(yè),為數(shù)字經(jīng)濟的長期可持續(xù)發(fā)展奠定了基礎(chǔ)。
第三,自主關(guān)。
京東完全掌握云海底層架構(gòu)設(shè)計和核心代碼主動權(quán),核心技術(shù)自主可控,并就開源框架常見性能、穩(wěn)定問題,進行了針對性優(yōu)化。與所有主流國產(chǎn)化平臺兼容互認,包括操作系統(tǒng)、數(shù)據(jù)庫、中間件、服務(wù)器、CPU、主板、網(wǎng)卡、磁盤等,助力政企客戶實現(xiàn)全面國產(chǎn)可控。
因此,“云?!笨梢栽谌孀灾鞯幕A(chǔ)上,保證存儲性能,做到真替真用,打消了國產(chǎn)化替代的后顧之憂,全面滿足政府客戶、企業(yè)客戶信創(chuàng)需求。
“云海”為橋,讓存算分離的分布式存儲不再遙遠。那么,這股先進技術(shù)的“春風”,能否從京東內(nèi)部實踐吹向千行百業(yè),抵達產(chǎn)業(yè)深處呢?
逐夢長安:接地氣的技術(shù)理想主義
數(shù)字經(jīng)濟的繁榮,不僅需要李白的驚才絕艷,也需要高適的腳踏實地,將其一點一滴地踐行。
作為數(shù)字新基建的先進存儲,要結(jié)合各行業(yè)對云盤的具體業(yè)務(wù)訴求,真正落地并降本增效,是不能懸浮在天上的,要干苦活、累活。
《長安三萬里》中,高適對李白說:你是謫仙人,要回天上。我是世間人,我在世間盤桓。
和現(xiàn)實中的產(chǎn)業(yè)站在一起,正是京東云腳踏實地、關(guān)注現(xiàn)實的一面。
京東集團技術(shù)委員會主席、京東云事業(yè)部總裁曹鵬曾提到,我們一直相信,技術(shù)進步來自產(chǎn)業(yè)實踐,又反哺于產(chǎn)業(yè)發(fā)展。在“云?!贝鎯ι砩希鉀Q產(chǎn)業(yè)中實際而具體的存儲問題,將存算分離的分布式存儲真正落地,更將“高適”的那一面顯現(xiàn)了出來。
為了讓云海更適配產(chǎn)業(yè)訴求,京東云還做了大量工作:
首先是務(wù)實。自己的降落傘自己先跳,京東云基于京東集團內(nèi)部豐富的存儲應(yīng)用場景,以及對降本提效的極致追求,推動云海實現(xiàn)由實際業(yè)務(wù)推動的高速迭代,驗證云海的技術(shù)先進性、有效性、可靠性。
此外,京東云堅持讓客戶說話,讓市場說話。“云海”與真實產(chǎn)業(yè)、現(xiàn)實場景結(jié)合的案例正在不斷激增,在各行業(yè)顯現(xiàn)出先進存儲的真實價值:真省錢,京東云存儲助力某大型消費金融公司打造存算分離大數(shù)據(jù)分析系統(tǒng),實現(xiàn)有效降本;真可靠,京東云存儲助力某政府部門建設(shè)穩(wěn)定安全的國民養(yǎng)老保險平臺,數(shù)據(jù)的安全合規(guī)存儲,是項目首要需求;真可用,某自動駕駛公司依托京東云存儲,構(gòu)建高性能自動駕駛模型訓練平臺,大幅提高訓練效率。這些真實的案例,幫助企業(yè)在數(shù)字化轉(zhuǎn)型中,更加篤定地踏上先進存儲這條必然之路。
另外,為了匹配中國企業(yè)的差異化特點和不同部署需求,京東云帶來了更懂中國市場的多元化交付模式。全新發(fā)布了云海一體機,可同時支持純軟授權(quán)或軟硬一體機形式獨立交付,也可作為存儲標準化產(chǎn)品,以純軟或軟硬一體機的形式集成在解決方案中輸出,讓客戶有更靈活的選擇。
用李白的逸興飛揚,展技術(shù)壯志;用高適的腳踏實地,向產(chǎn)業(yè)落地。云海的一體兩面,正是數(shù)字中國所需要的技術(shù)理想主義。
在先進存儲的底座上,掘金數(shù)字時代,是我們這一代人的盛唐,是值得追逐的《長安三萬里》。
和云伙伴一同前行,這條數(shù)字化之路就不再孤單,也終將抵達。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美國無人機禁令升級?當?shù)乜茖W家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實力
- 自動駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
- 明星熱劇、品牌種草、平臺資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機看它就夠了!
- 游戲體驗天花板,一加 Ace 5 系列售價 2299 元起
- 16個月沒工資不敢離職,這些打工人“自費上班”
- 怎樣利用微信小店“送禮”功能賺錢?
- 鴻蒙智行問界M9,中國豪華車的龍門一躍
- 科技云報道:人工智能時代“三大件”:生成式AI、數(shù)據(jù)、云服務(wù)
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。