大模型落地,如何跨過(guò)數(shù)據(jù)這道坎?

科技云報(bào)道原創(chuàng)。

隨著大模型從理論探索走向?qū)嶋H應(yīng)用,大模型的落地正在考驗(yàn)千千萬(wàn)萬(wàn)的企業(yè)。首要且核心的關(guān)注點(diǎn),無(wú)疑是從數(shù)據(jù)做起。

數(shù)據(jù),作為大模型的“燃料”,其質(zhì)量、多樣性與規(guī)模直接決定了大模型性能的天花板。因此,建立一套高效、可靠的數(shù)據(jù)處理流程,確保數(shù)據(jù)的質(zhì)量與合規(guī)性,成為了大模型落地的基石。

然而,構(gòu)建大模型的數(shù)據(jù)能力并不容易。如何找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù)?如何清洗加工原始數(shù)據(jù)?如何有效地進(jìn)行數(shù)據(jù)治理?如何將現(xiàn)有數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值?

種種問(wèn)題橫亙?cè)谄髽I(yè)和大模型之間,成為生成式AI時(shí)代的數(shù)據(jù)挑戰(zhàn)。

大模型時(shí)代的數(shù)據(jù)挑戰(zhàn)

如今基礎(chǔ)大模型遍地開(kāi)花,開(kāi)源大模型更是隨處可見(jiàn),每個(gè)企業(yè)都能訪問(wèn)相同的基礎(chǔ)大模型,但能夠利用自己的數(shù)據(jù)構(gòu)建生成式AI應(yīng)用的企業(yè)卻并不多見(jiàn)。

很重要的一個(gè)原因在于,從數(shù)據(jù)利用到大模型應(yīng)用,中間還需要大量的準(zhǔn)備工作。

一是,企業(yè)基于自身數(shù)據(jù)去定制基礎(chǔ)模型,不同的應(yīng)用場(chǎng)景需要不同的數(shù)據(jù)處理方式。

比如,在檢索增強(qiáng)生成(RAG)場(chǎng)景中,企業(yè)將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型相結(jié)合,在生成過(guò)程中需要實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù),從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。

RAG需要GB級(jí)企業(yè)數(shù)據(jù),數(shù)據(jù)來(lái)源是企業(yè)內(nèi)部文檔庫(kù)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、知識(shí)圖譜。技術(shù)要求上,RAG需要向量檢索來(lái)迅速查找讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。

在微調(diào)場(chǎng)景中,企業(yè)使用與目標(biāo)任務(wù)相關(guān)的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,以提高其在特定任務(wù)上的性能。

微調(diào)需要GB級(jí)人工標(biāo)的高質(zhì)量數(shù)據(jù),數(shù)據(jù)來(lái)源為私域知識(shí),技術(shù)上要求選取和檢驗(yàn)符合業(yè)務(wù)需求的高質(zhì)量數(shù)據(jù)集。

在持續(xù)預(yù)訓(xùn)練場(chǎng)景中,企業(yè)利用自身專有數(shù)據(jù)(如內(nèi)部文檔、客戶記錄等)對(duì)模型進(jìn)行持續(xù)預(yù)訓(xùn)練。這種持續(xù)預(yù)訓(xùn)練門檻較高、成本較大,但可以得到一個(gè)企業(yè)自身定制的行業(yè)大模型。

持續(xù)預(yù)訓(xùn)練需要TB級(jí)未標(biāo)的原始數(shù)據(jù),數(shù)據(jù)來(lái)源為公開(kāi)的數(shù)據(jù)集或企業(yè)各部門的數(shù)據(jù),技術(shù)上要求大規(guī)模、分布式清洗加工原始數(shù)據(jù)集的能力。

二是,企業(yè)需要具備強(qiáng)大的處理新數(shù)據(jù)的能力,才能有效構(gòu)建生成式AI應(yīng)用。

對(duì)生成式AI應(yīng)用程序而言,基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。相對(duì)于此前數(shù)據(jù)庫(kù)調(diào)用通常毫秒級(jí)甚至微秒級(jí)的響應(yīng)時(shí)間,基礎(chǔ)模型每次調(diào)用時(shí)長(zhǎng)往往達(dá)到秒級(jí)。此外,每次調(diào)用基礎(chǔ)模型也會(huì)增加成本。

因此,加快數(shù)據(jù)處理速度,才能有效地在調(diào)用大模型時(shí)降本增效。

打造生成式AI時(shí)代的數(shù)據(jù)基座

面對(duì)大模型構(gòu)建中的數(shù)據(jù)存儲(chǔ)、清洗、加工、查詢、調(diào)用等各種挑戰(zhàn),企業(yè)是否有高效的數(shù)據(jù)解決方案來(lái)應(yīng)對(duì)?

首先,針對(duì)大模型的微調(diào)、預(yù)訓(xùn)練,企業(yè)需要找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù),清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集,以及對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。

因此,在數(shù)據(jù)存儲(chǔ)方面,擴(kuò)展性和響應(yīng)速度是關(guān)鍵。

一方面,需要能夠承載海量數(shù)據(jù);另一方面,存儲(chǔ)性能必須跟上計(jì)算資源——避免因?yàn)閿?shù)據(jù)傳輸瓶頸造成高昂計(jì)算資源的浪費(fèi),或是吞吐量瓶頸導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間。

比如,亞馬遜云科技上超過(guò)20萬(wàn)個(gè)數(shù)據(jù)湖都使用Amazon S3,它支持廣泛的數(shù)據(jù)協(xié)議,能夠輕松應(yīng)對(duì)各種數(shù)據(jù)類型,還支持智能分層以降低訓(xùn)練成本,其安全和功能都滿足微調(diào)和預(yù)訓(xùn)練基礎(chǔ)模型對(duì)數(shù)據(jù)存儲(chǔ)上的要求。

專門構(gòu)建的文件存儲(chǔ)服務(wù)Amazon FSx for Lustre則能夠提供亞毫秒延遲和數(shù)百萬(wàn)IOPS的吞吐性能,能夠進(jìn)一步加快模型優(yōu)化的速度。

在數(shù)據(jù)清洗方面,企業(yè)需要靈活的工具來(lái)完成數(shù)據(jù)清理、去重、乃至分詞的操作,能夠?qū)W⒂谏墒紸I業(yè)務(wù)創(chuàng)新。

比如,Amazon EMR serverless采用無(wú)服務(wù)器架構(gòu),能夠幫助企業(yè)運(yùn)行任何規(guī)模的分析工作負(fù)載,自動(dòng)擴(kuò)展功能可在幾秒鐘內(nèi)調(diào)整資源大小,以滿足不斷變化的數(shù)據(jù)量和處理要求。

而Amazon Glue則是一個(gè)簡(jiǎn)單可擴(kuò)展的無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可以輕松快速地完成微調(diào)或預(yù)訓(xùn)練模型的數(shù)據(jù)準(zhǔn)備工作。

在數(shù)據(jù)治理方面,企業(yè)難以在多個(gè)賬戶和區(qū)域中查找數(shù)據(jù),也缺乏有效的數(shù)據(jù)治理工具。因此,一個(gè)能夠跨組織邊界大規(guī)模地發(fā)現(xiàn)、共享和管理數(shù)據(jù)的統(tǒng)一數(shù)據(jù)管理平臺(tái),成為企業(yè)的必選項(xiàng)。

其次,針對(duì)大模型RAG場(chǎng)景,企業(yè)需要向量檢索來(lái)迅速查找,讓模型能快速準(zhǔn)確地進(jìn)行響應(yīng)。

這其中的技術(shù)關(guān)鍵是向量嵌入(vector embeddings),它通過(guò)將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問(wèn)題,以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。

理想的情況是將向量搜索和數(shù)據(jù)存儲(chǔ)結(jié)合在一起,這樣企業(yè)就能將向量檢索和現(xiàn)有數(shù)據(jù)關(guān)聯(lián)起來(lái),并得到更快的體驗(yàn)。

比如,亞馬遜云科技就專門構(gòu)建了圖數(shù)據(jù)庫(kù)Amazon Neptune,并為其推出了分析數(shù)據(jù)庫(kù)引擎,能夠提升80倍的圖數(shù)據(jù)分析速度,使用內(nèi)置算法可在幾秒鐘分析數(shù)百億個(gè)連接。通過(guò)將圖和向量數(shù)據(jù)一直存儲(chǔ)能夠?qū)崿F(xiàn)更快的向量搜索。

最后,有效處理生成式AI應(yīng)用的新數(shù)據(jù),企業(yè)能夠降低模型頻繁調(diào)用成本并提升性能。

很多企業(yè)在推出生成式AI應(yīng)用后會(huì)發(fā)現(xiàn),基礎(chǔ)大模型的頻繁調(diào)用會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。但如果將之前問(wèn)答生成的新數(shù)據(jù)存入緩存,不調(diào)用模型,而直接通過(guò)緩存給出回答,就能夠減少模型調(diào)用,還可以節(jié)約成本。

Amazon Memory DB內(nèi)存數(shù)據(jù)庫(kù)就是這樣一種工具,能夠存儲(chǔ)數(shù)百萬(wàn)個(gè)向量,只需要幾毫秒的響應(yīng)時(shí)間,就能夠以99%的召回率實(shí)現(xiàn)每秒百萬(wàn)次的查詢性能。

結(jié)語(yǔ)

在大模型快速爆發(fā)的當(dāng)下,企業(yè)缺的并不是大模型本身,而是以自身需求為中心去構(gòu)建大模型應(yīng)用,而這個(gè)構(gòu)建的過(guò)程并不容易。

正如亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建所說(shuō):“企業(yè)需要的是懂業(yè)務(wù)、懂用戶的生成式AI應(yīng)用,而打造這樣的應(yīng)用需要從數(shù)據(jù)做起?!?/p>

亞馬遜云科技提供的正是企業(yè)構(gòu)建生成式AI應(yīng)用程序所需的一系列數(shù)據(jù)功能,能夠在實(shí)現(xiàn)簡(jiǎn)化開(kāi)發(fā)的同時(shí)確保隱私性和安全性。

事實(shí)上,亞馬遜云科技不僅能提供數(shù)據(jù)工具,在云基礎(chǔ)設(shè)施服務(wù)、模型層服務(wù)、應(yīng)用層服務(wù)都提供了大量的服務(wù)于生成式AI的工具。

通過(guò)這一系列從底層到應(yīng)用層的創(chuàng)新,亞馬遜云科技的目標(biāo)是讓企業(yè)內(nèi)的任何開(kāi)發(fā)人員都能夠自由構(gòu)建生成式AI應(yīng)用,而無(wú)需關(guān)注復(fù)雜的機(jī)器學(xué)習(xí)或底層基礎(chǔ)設(shè)施。

當(dāng)服務(wù)商解決好大模型落地的“最后幾公里”,那么大模型走進(jìn)千行百業(yè)將不再是一句口號(hào)。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2024-05-21
大模型落地,如何跨過(guò)數(shù)據(jù)這道坎?
科技云報(bào)道原創(chuàng)。隨著大模型從理論探索走向?qū)嶋H應(yīng)用,大模型的落地正在考驗(yàn)千千萬(wàn)萬(wàn)的企業(yè)。首要且核心的關(guān)注點(diǎn),無(wú)疑是從數(shù)據(jù)做起。數(shù)據(jù),...

長(zhǎng)按掃碼 閱讀全文