色www国产阿娇,久久精品国产只有精品2020,亚洲一级无码Aⅴ

亞馬遜云科技陳曉建：企業(yè)在生成式 AI 時(shí)代取得成功的三項(xiàng)關(guān)鍵數(shù)據(jù)能力

人閱讀

2024-05-07 16:39:32

來(lái)源：TechWeb.com.cn
相關(guān)關(guān)鍵詞

5月7日消息，“每個(gè)公司都能訪問(wèn)相同的基礎(chǔ)模型，但那些能夠利用自己的數(shù)據(jù)構(gòu)建具有真正商業(yè)價(jià)值的生成式人工智能應(yīng)用的公司，將會(huì)是成功的公司?！?/p>

大模型火熱兩年多，從GPT3到GPT4，從Llama 2到Llama 3，從Claude 2到Claude3……全球范圍內(nèi)基礎(chǔ)大模型能力不斷被刷新新紀(jì)錄。

然而企業(yè)在落地大模型應(yīng)用時(shí)，到底應(yīng)該如果構(gòu)建自身的獨(dú)特優(yōu)勢(shì)呢？

亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示：“企業(yè)需要的是懂業(yè)務(wù)、懂用戶(hù)的生成式AI應(yīng)用，而打造這樣的應(yīng)用需要從數(shù)據(jù)做起。數(shù)據(jù)是企業(yè)在生成式AI時(shí)代取得成功的關(guān)鍵。”

成式 AI 時(shí)代數(shù)據(jù)的重要性體現(xiàn)在：基礎(chǔ)模型依賴(lài)于大規(guī)模高質(zhì)量數(shù)據(jù)集，生成式AI的差異化優(yōu)勢(shì)來(lái)源于企業(yè)的專(zhuān)有數(shù)據(jù)，生成式AI應(yīng)用產(chǎn)生的大量新數(shù)據(jù)也需要及時(shí)有效地加以管理和利用。

因此，陳曉建認(rèn)為企業(yè)構(gòu)建生成式AI應(yīng)用需要具備三項(xiàng)關(guān)鍵的數(shù)據(jù)能力：

一、利用現(xiàn)有數(shù)據(jù)支持微調(diào)或預(yù)訓(xùn)練模型的能力

從原始數(shù)據(jù)集到訓(xùn)練出基礎(chǔ)模型需要解決三個(gè)主要問(wèn)題。

首先，需要找到合適的存儲(chǔ)來(lái)承載海量數(shù)據(jù)。生成式AI基礎(chǔ)模型誕生于大規(guī)模、高質(zhì)量數(shù)據(jù)集。如果一本書(shū)按500KB算，現(xiàn)在的500T參數(shù)的模型已經(jīng)有332億本，相當(dāng)于現(xiàn)存每個(gè)人類(lèi)擁有4本書(shū)；

其次，清洗加工原始數(shù)據(jù)為高質(zhì)量數(shù)據(jù)集。在數(shù)據(jù)清洗方面，企業(yè)面臨著繁重的數(shù)據(jù)清洗加工任務(wù)。以公開(kāi)搜集的2TB英文數(shù)據(jù)集為例，經(jīng)過(guò)清洗、去重后變成1.2TB的數(shù)據(jù)，再經(jīng)過(guò)分詞處理成大約3000億的tokens。

最后，對(duì)整個(gè)組織內(nèi)數(shù)據(jù)的發(fā)現(xiàn)編目治理。企業(yè)面臨的數(shù)據(jù)治理難題包括：難以找到分布在各帳戶(hù)和地區(qū)的數(shù)據(jù)，數(shù)據(jù)訪問(wèn)的控制很難管理且容易出錯(cuò)，數(shù)據(jù)分析師訪問(wèn)權(quán)限不足且缺乏相對(duì)應(yīng)的工具技能，不用戶(hù)沒(méi)有簡(jiǎn)單的數(shù)據(jù)協(xié)同環(huán)境，數(shù)據(jù)治理隱藏在各種工具中。

二、將企業(yè)數(shù)據(jù)快速結(jié)合模型產(chǎn)生獨(dú)特價(jià)值的能力

基礎(chǔ)模型自身有一定的局限性，例如缺乏垂直行業(yè)的專(zhuān)業(yè)知識(shí)，缺乏時(shí)效性，生成錯(cuò)誤信息如幻覺(jué)問(wèn)題等，以及用戶(hù)敏感數(shù)據(jù)的隱私合規(guī)風(fēng)險(xiǎn)。

檢索增強(qiáng)生成（Retrieval-Augmented Generation，RAG）技術(shù)被普遍認(rèn)為是實(shí)現(xiàn)企業(yè)數(shù)據(jù)與基礎(chǔ)模型結(jié)合的主要途徑之一，它通過(guò)將數(shù)據(jù)轉(zhuǎn)換為向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中，從而將語(yǔ)義的關(guān)聯(lián)性轉(zhuǎn)化為向量間的數(shù)學(xué)距離問(wèn)題，以實(shí)現(xiàn)內(nèi)容的關(guān)聯(lián)性計(jì)算。

通過(guò)RAG，企業(yè)可以將自身的知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等與生成式AI模型相結(jié)合，在生成過(guò)程中實(shí)時(shí)檢索和利用企業(yè)內(nèi)部的相關(guān)數(shù)據(jù)，從而提高生成結(jié)果的準(zhǔn)確性、一致性和信息量。這個(gè)方法相對(duì)簡(jiǎn)便，適用場(chǎng)景包括知識(shí)時(shí)效性、控制幻覺(jué)、用戶(hù)隱私數(shù)據(jù)保護(hù)、企業(yè)私域知識(shí)等。

三、有效處理新數(shù)據(jù)，助力生成式AI應(yīng)用飛速發(fā)展的能力

對(duì)生成式AI應(yīng)用程序而言，基礎(chǔ)模型頻繁調(diào)用將會(huì)導(dǎo)致成本的增加和響應(yīng)的延遲。相對(duì)于此前數(shù)據(jù)庫(kù)調(diào)用通常毫秒級(jí)甚至微秒級(jí)的響應(yīng)時(shí)間，基礎(chǔ)模型每次調(diào)用時(shí)長(zhǎng)往往達(dá)到秒級(jí)。此外，每次調(diào)用基礎(chǔ)模型也會(huì)增加成本。

很多企業(yè)反映，終端用戶(hù)絕對(duì)大部分問(wèn)題是類(lèi)似甚至重復(fù)的。因此可以通過(guò)將之前問(wèn)答生成的新數(shù)據(jù)存入緩存，從而在面對(duì)類(lèi)似問(wèn)題時(shí)，可以不調(diào)用模型，而直接通過(guò)緩存給出回答，這不但能夠減少模型調(diào)用，還可以節(jié)約成本。

陳曉建強(qiáng)調(diào)：“亞馬遜云科技構(gòu)建數(shù)據(jù)基座的三大核心能力涵蓋從基礎(chǔ)模型訓(xùn)練到生成式AI應(yīng)用構(gòu)建的重要場(chǎng)景，能夠幫助企業(yè)輕松應(yīng)對(duì)海量多模態(tài)數(shù)據(jù)，提升基礎(chǔ)模型能力。作為全球云計(jì)算的開(kāi)創(chuàng)者和引領(lǐng)者，亞馬遜云科技正在幫助各個(gè)行業(yè)、各種規(guī)模的企業(yè)打造強(qiáng)健的數(shù)據(jù)基座，在確保用戶(hù)業(yè)務(wù)和數(shù)據(jù)安全的前提下，將數(shù)據(jù)的獨(dú)特價(jià)值賦予基礎(chǔ)模型和生成式AI應(yīng)用，加速企業(yè)業(yè)務(wù)增長(zhǎng)?！保ü啵?/p>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）