123,123

AI Agent，正在接棒大語(yǔ)言模型LLM，成為AI圈最火的話題。

目前，AI創(chuàng)投圈的眾生相，大概是這樣的：

大廠俱樂(lè)部：OpenAI內(nèi)部員工聲稱，AI Agent是OpenAI的新方向；微軟嘗試推動(dòng)copilot，讓AI以助理的角色落地，這是一種典型的AI Agent場(chǎng)景；英偉達(dá)推出了Voyager，這個(gè)AI Agent可以自主寫(xiě)代碼，獨(dú)霸游戲《我的世界》；國(guó)內(nèi)商湯也推出了通才AI智能體；阿里推出了數(shù)字員工……

學(xué)術(shù)圈：今年四月，斯坦福創(chuàng)建了一個(gè)西部世界小鎮(zhèn)，讓25個(gè)AI Agents在虛擬小鎮(zhèn)的沙盒環(huán)境中模擬人類，與其他AI Agents戀愛(ài)、派對(duì)、協(xié)作、約會(huì)等。另外，也有學(xué)者開(kāi)始利用AI Agents設(shè)計(jì)復(fù)雜科學(xué)實(shí)驗(yàn)，包括自動(dòng)上網(wǎng)閱讀論文、研究抗癌藥物……這些前沿探索讓人大開(kāi)腦洞。

創(chuàng)業(yè)圈：AI Agent并不只是頂級(jí)科學(xué)家的游戲，目前已經(jīng)涌現(xiàn)出了Camel、AutoGPT、BabyAGI、AgentGPT等非常多的項(xiàng)目，并有一大批開(kāi)源社區(qū)開(kāi)發(fā)者和創(chuàng)業(yè)者，利用這些開(kāi)源項(xiàng)目打造一些實(shí)用工具。比如aomni，就是一個(gè)幫助用戶抓取網(wǎng)絡(luò)信息并郵件發(fā)送的AI Agent應(yīng)用程序。

投資圈：AI Agent被認(rèn)為是“通往通用人工智能（AGI）時(shí)代的開(kāi)始”，其爆發(fā)是“鐵板釘釘”，有硅谷創(chuàng)業(yè)者表示，跟投資人聊到Generative Agents ，大家都特別期待，并希望多了解、靠的更近，在后續(xù)爆發(fā)時(shí)反應(yīng)更快。

從這些判斷來(lái)說(shuō)，說(shuō)“AI Agent開(kāi)啟大模型下半場(chǎng)”，還為時(shí)尚早，但“AI Agent是大模型的商業(yè)化標(biāo)配”，應(yīng)該是清晰的了。

所以，接下來(lái)我們應(yīng)該會(huì)看到，更多大廠和創(chuàng)業(yè)公司，都在AI Agent上有更多動(dòng)作。

那么，AI Agent究竟是什么？為什么說(shuō)它是大模型商業(yè)化的必要條件？

大模型心高氣傲，用戶仍不買(mǎi)單

這里我們先把AI Agent放在一邊，來(lái)看看大模型究竟是一個(gè)什么狀況。

相信大多數(shù)讀者都認(rèn)可，大模型是一個(gè)高愿景、高投入、高門(mén)檻的東西，往情懷說(shuō)，可能實(shí)現(xiàn)通用人工智能，徹底改變社會(huì)；往世俗說(shuō)，可以重構(gòu)業(yè)務(wù)/產(chǎn)品，讓科技企業(yè)業(yè)績(jī)狂飆。

但這些都有建立在，大模型能夠真正商業(yè)化落地，回收研發(fā)成本，良性可持續(xù)發(fā)展的基礎(chǔ)上。

幾個(gè)月下來(lái)，大模型的兩個(gè)商業(yè)模式，是比較有效的：一個(gè)是各類行業(yè)政企對(duì)大模型的私有化本地部署；一個(gè)是通過(guò)云、AI服務(wù)器等售賣(mài)大模型所需要的算力。

目前，已經(jīng)有國(guó)內(nèi)廠商發(fā)布了相應(yīng)的業(yè)務(wù)報(bào)告，已經(jīng)從行業(yè)私有化部署的需求中獲得了千萬(wàn)級(jí)收入。

但是，僅靠ToB業(yè)務(wù)，顯然不能支撐起一個(gè)大模型的商業(yè)模式。

一場(chǎng)技術(shù)革命，核心技術(shù)一定要流淌出去，讓幾十億普通用戶用起來(lái)，才能創(chuàng)造出經(jīng)濟(jì)價(jià)值。家用PC、互聯(lián)網(wǎng)、智能手機(jī)，都是在大眾普及之后，諸多科技企業(yè)的市值一飛沖天。

現(xiàn)在，巨頭們都為訓(xùn)大模型投入了大量資源，尤其是基礎(chǔ)模型，動(dòng)輒千億、萬(wàn)億的參數(shù)規(guī)模，必須讓大眾用戶用起來(lái)。

那么，實(shí)際應(yīng)用體驗(yàn)怎么樣呢？

閑聊、畫(huà)圖、創(chuàng)意之類的場(chǎng)景容錯(cuò)率高，就算AI答錯(cuò)了用戶還覺(jué)得“萌萌噠”，這部分應(yīng)用已經(jīng)很卷了，比如“AI證件照”。而絕大多數(shù)場(chǎng)景，都是需要AI來(lái)自動(dòng)幫助自己處理較為嚴(yán)肅的任務(wù)，與其他環(huán)境條件進(jìn)行協(xié)作，應(yīng)對(duì)長(zhǎng)線條、連續(xù)性的業(yè)務(wù)，不要出現(xiàn)太多錯(cuò)誤，不然人還得大量參與，并不能真的提高生產(chǎn)力。

這類場(chǎng)景，顯然目前，一個(gè)龐大且復(fù)雜的通用大模型，是不能很好地解決的。

就拿我這種撰稿來(lái)說(shuō)，讓大模型幫我寫(xiě)稿子，它可能有幻覺(jué)，提到的事件/新聞/論文我都得再次復(fù)查確認(rèn)一下，比我自己找資料還費(fèi)事，不夠精準(zhǔn)，想一個(gè)創(chuàng)意還得我用提示詞啟發(fā)半天，都不一定有能用的，又慢又累，還不如自己寫(xiě)。

不能一步到位，自動(dòng)化地完成任務(wù)，需要大量人類參與干預(yù)review，是目前大模型在嚴(yán)肅場(chǎng)景中應(yīng)用的一大難點(diǎn)，也直接影響到了大模型落地和商業(yè)化的進(jìn)展。

怎么辦呢？大模型想要表現(xiàn)出色，急需一群幫手，那就是AI Agents。

真·解放生產(chǎn)力，AI Agent為什么神奇？

試想一下，如果大模型能自己全天7*24小時(shí)工作，還不需要人工參與，自己就能完成各種任務(wù)，人只要偶爾回到電腦前、辦公室看看它做的咋樣，這才是大模型的正確打開(kāi)方式啊。

OpenAI在GPT-4發(fā)布會(huì)上，確實(shí)也展現(xiàn)了一些自動(dòng)化完成任務(wù)的能力，比如讓GPT4識(shí)別草圖生成網(wǎng)頁(yè)，step by step一步步修改自己代碼中錯(cuò)誤。

但是，這種能力怎么被開(kāi)發(fā)者和普通用戶用到呢？很多開(kāi)發(fā)者都反應(yīng)，直接使用GPT4寫(xiě)代碼還是得自己debug，并不能看圖生成直接用的代碼，有時(shí)候不如不用。

大模型廠商也為難啊，我已經(jīng)開(kāi)放了API，要更專業(yè)精準(zhǔn)精細(xì)化的能力，還得有人來(lái)進(jìn)一步開(kāi)發(fā)，這就把接力棒交給了AI Agent。

AI Agent（智能體），是AI在環(huán)境中的自動(dòng)化實(shí)體，有四個(gè)核心特征：

1. 通過(guò)傳感器感知周?chē)沫h(huán)境。這個(gè)環(huán)境，既可以是虛擬的，比如沙盒游戲、模擬訓(xùn)練系統(tǒng)、自動(dòng)駕駛模擬器等，也可以是物理的，比如馬路、房間、流水線等。

2. 可以自主做出決定。

3. 由執(zhí)行器/效應(yīng)器一起來(lái)采取行動(dòng)。

4.基于績(jī)效最大化和結(jié)果最優(yōu)化來(lái)學(xué)習(xí)進(jìn)步。

從這個(gè)角度看，其實(shí)人類自己也是一種“智能代理”AI Agent，我們可以通過(guò)眼睛、耳朵、皮膚等感知外界環(huán)境的變化，再通過(guò)大腦做出決策，用嘴說(shuō)、用腿走來(lái)做出行動(dòng)，并且根據(jù)獎(jiǎng)勵(lì)反饋來(lái)不斷調(diào)整適應(yīng)外界環(huán)境。

其實(shí)，Agents in AI也是一樣的邏輯。就拿自動(dòng)駕駛場(chǎng)景的AI Agent來(lái)說(shuō)，就需要傳感器來(lái)采集信息，感知道路車(chē)輛行人等環(huán)境因素，再由系統(tǒng)自動(dòng)決策，驅(qū)動(dòng)油門(mén)、制動(dòng)器等設(shè)備做出相應(yīng)的反應(yīng)。

這也被稱為AI Agent的PEAS模型。我們給大家簡(jiǎn)單做個(gè)表，感受一下：

那么，具體在大模型上，AI Agent可以帶來(lái)什么影響了？主要有以下幾個(gè)關(guān)鍵的作用：

第一，拆解任務(wù)。

大模型要和某個(gè)具體領(lǐng)域結(jié)合，面對(duì)的用戶需求是比較籠統(tǒng)的，過(guò)程往往會(huì)涉及到多個(gè)步驟。就好比用戶說(shuō)“要有光”，孤立的大模型既不知道所在的環(huán)境有什么燈具，也不知道怎么控制，所以有了大模型也不能搞定這個(gè)看似簡(jiǎn)單其實(shí)復(fù)雜的任務(wù)。

而AI Agent具有任務(wù)規(guī)劃能力，可以自動(dòng)理解并決定，如何規(guī)劃步驟、分配資源、優(yōu)化決策，進(jìn)而完成指令，提升了大模型處理任務(wù)的效率和精度。

谷歌大腦研究團(tuán)隊(duì)的一篇論文中，就讓大語(yǔ)言模型把任務(wù)步驟分解的推理過(guò)程，也就是“內(nèi)心獨(dú)白”都說(shuō)出來(lái)，再去做相應(yīng)的動(dòng)作，一下子就提高了大模型答案的準(zhǔn)確性，在多個(gè)數(shù)據(jù)集上都取得了SOTA 效果，讓大模型胡說(shuō)八道的情況有所改善。

第二，自動(dòng)執(zhí)行。

AI Agent被設(shè)計(jì)為獨(dú)立思考和行動(dòng)，用戶只需要給它一個(gè)任務(wù)，讓它做事就可以了。AutoGPT的典型案例就是點(diǎn)披薩，不需要用戶自己輸入地址、選擇口味，AI Agent將所有點(diǎn)餐步驟都大包大攬，自動(dòng)執(zhí)行，人在一邊看著，發(fā)現(xiàn)出錯(cuò)及時(shí)糾正就好了。

AI Agent不止能使用互聯(lián)網(wǎng)，還可以在物理環(huán)境中工作，控制機(jī)器人拿快遞、無(wú)人車(chē)、自動(dòng)駕駛等。

有了AI Agent，用戶和大模型之間的交互，會(huì)更加自然、簡(jiǎn)單、快速，減少人工參與，真正提質(zhì)增效。比如游戲世界中，AI Agent可以自動(dòng)跟玩家展開(kāi)對(duì)話，提供開(kāi)放式的交互，根據(jù)玩家的反饋來(lái)設(shè)計(jì)無(wú)限故事線，真正讓游戲做到千人千面；物理世界中，AI Agent自動(dòng)生成指令和操作，驅(qū)動(dòng)機(jī)械身體，為人類提供家政服務(wù)，在工廠里自動(dòng)化作業(yè)，不依賴人類的指導(dǎo)就能完成。

第三，節(jié)約資源。

AI Agent像人一樣，能夠使用工具，也就是調(diào)用API，來(lái)處理更加復(fù)雜的任務(wù)，這就很好地?cái)U(kuò)展了大模型的能力，減少了對(duì)資源的浪費(fèi)和過(guò)度消耗。

比如AutoGPT寫(xiě)代碼，要對(duì)專有信息源數(shù)據(jù)、算力資源等進(jìn)行訪問(wèn)，這個(gè)過(guò)程中AI Agent可以自動(dòng)找到合適的API來(lái)進(jìn)行調(diào)用，這樣就可以避免浪費(fèi)其他API token。還能夠自主學(xué)習(xí)，對(duì)結(jié)果進(jìn)行優(yōu)化，如果不滿意就重新調(diào)用 API。

一般來(lái)說(shuō)，要真正完成一項(xiàng)不明確的用戶指令，比如旅行規(guī)劃，需要模型調(diào)用多個(gè)API才能解決問(wèn)題，自動(dòng)化強(qiáng)的AI Agent無(wú)疑能夠很好地節(jié)省資源，進(jìn)而為用戶節(jié)省成本，讓AI應(yīng)用更有吸引力和競(jìng)爭(zhēng)力。

第四，吸引開(kāi)發(fā)者。

對(duì)大模型的商業(yè)化來(lái)說(shuō)，API模式需要盡可能多的開(kāi)發(fā)者群體參與，行業(yè)模式也需要ISV集成商、軟件服務(wù)商等。大家都知道，和大廠卷基礎(chǔ)模型是很難有勝算的，更希望在細(xì)分的上層應(yīng)用上找到機(jī)會(huì)。而AI Agent能夠解決具體問(wèn)題、提高模型效果，驅(qū)動(dòng)數(shù)字系統(tǒng)和物理實(shí)體，就非常適合來(lái)構(gòu)建超級(jí)應(yīng)用。

如果說(shuō)AI Agent就像是一個(gè)最小單位的AI生命，那么大模型廠商就是孕育生命的工廠，而開(kāi)發(fā)者、軟件商等就像是技能培訓(xùn)班，教會(huì)它們一些實(shí)用而有差別的技能，到行業(yè)和用戶身邊努力工作。

所以，哪個(gè)大模型能夠更好地構(gòu)建AI Agent，能吸引的開(kāi)發(fā)生態(tài)就會(huì)更龐大，對(duì)商業(yè)B端用戶的粘性更強(qiáng)，形成一個(gè)AI平臺(tái)級(jí)的巨大機(jī)會(huì)。

總結(jié)一下，AI Agent直接影響到大模型的模型效果、服務(wù)質(zhì)量、落地成本、生態(tài)能力，將是接下來(lái)各個(gè)大模型的競(jìng)爭(zhēng)關(guān)鍵。

AI Agent做得好，模型少不了

那你可能會(huì)問(wèn)了，那怎么才能產(chǎn)生好的AI Agent呢？這對(duì)大模型提出了哪些挑戰(zhàn)？

我們認(rèn)為，AI Agent想要落地，需要大模型做好以下工作，這也是接下來(lái)的競(jìng)爭(zhēng)焦點(diǎn)：

1.基礎(chǔ)模型。

AI Agent的能力和效果，是由底層基礎(chǔ)模型的能力決定的?；A(chǔ)模型有的能力，AI Agent不一定能用上，但基礎(chǔ)模型沒(méi)有的能力，AI Agent一定沒(méi)有。

就拿語(yǔ)言任務(wù)來(lái)說(shuō)，GPT-4提供了很強(qiáng)的自然語(yǔ)言理解能力，但目前真正部署到AI Agent和產(chǎn)品中的很少，一些游戲中的智能體NPC還是沒(méi)有自主決策的行為能力的。

再比如，GPT-4雖然有多模態(tài)，但只開(kāi)放了語(yǔ)言API，所以開(kāi)發(fā)者想要用GPT4的多模態(tài)能力來(lái)構(gòu)建AI Agent，還做不到，而缺失了圖像、音頻等其他模態(tài)的信息，AI Agent對(duì)環(huán)境的理解和效果還有待提升。

所以，無(wú)論是開(kāi)源模型，還是閉源模型，想要通過(guò)API經(jīng)濟(jì)來(lái)商業(yè)化，基礎(chǔ)模型的能力會(huì)直接關(guān)系到AI Agent的質(zhì)量，且都還有提升的空間。

2.數(shù)據(jù)知識(shí)。

想要做好一個(gè)AI Agent，采集和使用數(shù)據(jù)是基本前提。對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，數(shù)字任務(wù)的數(shù)據(jù)量已經(jīng)不成問(wèn)題，但開(kāi)發(fā)物理世界的AI Agent，數(shù)據(jù)成本就非常高了。機(jī)器人的控制數(shù)據(jù)，一般只能自己采集，通過(guò)模擬器或者實(shí)體機(jī)器人現(xiàn)場(chǎng)采集。但模擬器畢竟不是真實(shí)的環(huán)境，訓(xùn)練的效果不一定好，而購(gòu)買(mǎi)幾百臺(tái)機(jī)器人、無(wú)人機(jī)真正上路進(jìn)廠去收集數(shù)據(jù)，無(wú)論是采購(gòu)成本、政策限制、實(shí)際執(zhí)行等，都有不小的困難。

這一點(diǎn)上，擁有數(shù)據(jù)優(yōu)勢(shì)的大模型廠商，比如谷歌、百度的自動(dòng)駕駛優(yōu)勢(shì)，微軟、谷歌、搜狗、百度等搜索業(yè)務(wù)的數(shù)據(jù)優(yōu)勢(shì)，或許能夠?yàn)殚_(kāi)發(fā)者的AI Agents探索減少一些門(mén)檻，也會(huì)為這些廠商的大模型建立壁壘。

3.產(chǎn)品支持。

必須承認(rèn)，AI Agent所代表的大模型應(yīng)用機(jī)會(huì)，還只是非常早期，技術(shù)上尚未完全成熟，商業(yè)化探索更是剛剛邁出了一點(diǎn)點(diǎn)步伐。對(duì)于開(kāi)發(fā)者、軟件服務(wù)商等來(lái)說(shuō)，比起代碼上怎么實(shí)現(xiàn)AI Agent，更關(guān)鍵也更早一步要考慮的，是想象一個(gè)AI Agent所應(yīng)該的去向：

它應(yīng)該是什么樣子？叫什么名字？有性別嗎？以什么性格跟用戶對(duì)話？有哪些用例？會(huì)遇到哪些具體的困難？如何評(píng)價(jià)一個(gè)AI Agent的成功？

這些更多是產(chǎn)品層面、商業(yè)層面的“無(wú)人區(qū)”，要讓開(kāi)發(fā)者釋放想象力，在各種環(huán)境和任務(wù)中嘗試創(chuàng)建AI Agents，需要大模型廠商開(kāi)放自身的商業(yè)生態(tài)和更豐富便捷的功能，來(lái)減少開(kāi)發(fā)人員的試錯(cuò)風(fēng)險(xiǎn)，增加與商業(yè)用戶對(duì)接的強(qiáng)度，去催生更多商業(yè)選擇和落地案例。

總而言之，這個(gè)領(lǐng)域仍然很新，目前AI Agent還沒(méi)有明確給大模型產(chǎn)業(yè)帶來(lái)沖擊，但AI Agent會(huì)消除人與AI系統(tǒng)的大量繁瑣交互已經(jīng)板上釘釘，正在發(fā)生。

更多AI Agents在被推向社區(qū)、推向用戶，它們學(xué)習(xí)，它們改變，它們進(jìn)化?；蛟S幾個(gè)月之后，我們就會(huì)看到AI Agents的成熟和爆發(fā)，這必然會(huì)引發(fā)大模型領(lǐng)域的又一次洗牌。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

大模型心高氣傲，沒(méi)有AI Agents生死難料

下一篇