編輯部 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
有算力就有超越Sora的可能。
70%的代碼問題,現(xiàn)在單純靠基座模型解決不了。
基于垂直場景的大模型應(yīng)用創(chuàng)新,只有兩年的窗口期。
ROI是衡量AIGC應(yīng)用價值的第一標準。
AI給了每個人一次突破自己的機會。
……
在中國AIGC產(chǎn)業(yè)峰會的現(xiàn)場,20位大咖展開激辯。從軟件應(yīng)用、智能終端乃至具身智能等,AIGC正在全面席卷,「你好,新應(yīng)用!」成為本屆AIGC峰會主題。
來自AIGC底層基礎(chǔ)設(shè)施、模型層、應(yīng)用層的企業(yè)玩家,以及來自市場學術(shù)界的洞察者,暢談大模型落地元年這個萬億市場的的機遇與挑戰(zhàn)。
現(xiàn)場烏泱泱一片,500人的會場可以說是座無虛席(其實站也要沒有席了)。
線上也有數(shù)百萬網(wǎng)友圍觀并積極討論,以及數(shù)十家行業(yè)知名媒體參與了大會的直播跟報道,全網(wǎng)總曝光量超千萬。
為了讓更多讀者更全面、系統(tǒng)地了解本次AIGC峰會的內(nèi)容,深入感知這股時代浪潮的發(fā)展,量子位聯(lián)合各大模型做了萬字梳理,希望能為大家提供一份有價值的行業(yè)參考。
(建議收藏再食用)
本次梳理主要圍繞五個方面展開,分別是AIGC的模型層、應(yīng)用層、基礎(chǔ)設(shè)施層的參與者,以及行業(yè)洞察者的觀點,最后是圓桌討論的精彩觀點。
AIGC模型層:微軟阿里高通等玩家談落地
微軟李冕:AI應(yīng)用已進入新階段,微軟助力企業(yè)級應(yīng)用全球落地
微軟大中華區(qū)Azure云事業(yè)部總經(jīng)理李冕分享了微軟Copilot與Azure AI平臺如何助力企業(yè)級應(yīng)用的全球落地。
李冕認為,過去12個月AI經(jīng)歷了數(shù)次迭代,現(xiàn)在AI應(yīng)用已進入到一個新的階段。企業(yè)如何打造自己的應(yīng)用?怎么實現(xiàn)AI帶來的真正價值?可以從四個方面來考慮應(yīng)用落地:提升員工生產(chǎn)力,重塑與用戶的互動關(guān)系,重塑企業(yè)內(nèi)部流,加強產(chǎn)品和服務(wù)。
他強調(diào)了在企業(yè)打造自己的應(yīng)用時微軟可以為企業(yè)提供的一系列支持。
AI模型層面,李冕展開介紹了Azure平臺支持的三類模型,分別是OpenAI系列模型、第三方開源模型和企業(yè)自研模型(BYOM)。同時,也講述了小模型(SLM)在特定場景下的應(yīng)用前景。
對于開發(fā)工具,李冕提到Azure提供低代碼、無代碼的Microsoft Copilot Studio工作臺以及針對深度定制的Azure AI Studio,方便企業(yè)快速開發(fā)AI應(yīng)用。
考慮到企業(yè)級應(yīng)用需求,李冕還表示微軟不僅在最上面的模型層為企業(yè)提供支持,還提供下面的調(diào)度層、硬件層、云數(shù)據(jù)中心等的一系列配套服務(wù)。
李冕在演講最后重申了微軟在數(shù)據(jù)隱私安全方面的承諾:
“客戶的數(shù)據(jù)就是客戶的數(shù)據(jù),客戶的數(shù)據(jù)不會被用來訓練其它模型,所有客戶數(shù)據(jù)均有企業(yè)級防護,受到全面的企業(yè)合規(guī)和安全控制的保護?!?/p>
昆侖萬維方漢:天工SkyMusic音樂大模型將大大降低音樂創(chuàng)作的門檻和成本
昆侖萬維董事長兼CEO方漢分享了“天工多模態(tài)大模型的演進落地”。大會當天,昆侖萬維發(fā)布了「天工3.0」,這是中國音樂AIGC領(lǐng)域首個實現(xiàn)SOTA水平的模型。同時,他還宣布「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。
「天工3.0」擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,是全球最大的開源MoE大模型。在MMbench和MMbench-CN測試集上,「天工3.0」性能指標全面超越GPT-4V。
通過專項的Agent訓練,目前大模型可以做到“能搜能寫能讀能聊能說能畫能聽能唱”,應(yīng)對多種復(fù)雜的內(nèi)容創(chuàng)作需求。例如,它可以準確識別“成都迪士尼”是個梗,并給出游玩攻略;可以自動總結(jié)文獻,生成大綱、PPT和腦圖;還可以通過非代碼方式生成智能體。
方漢特別介紹了「天工SkyMusic」音樂大模型,得益于2000萬首音樂的訓練數(shù)據(jù)和獨特的模型架構(gòu),「天工SkyMusic」在人聲識別度、音質(zhì)等方面已經(jīng)超越Sora?!柑旃kyMusic」支持根據(jù)音源和歌手特點生成音樂,并支持多種方言合成,大大降低了音樂創(chuàng)作的門檻和成本——
各行各業(yè)使用的歌曲都能通過AI生成,成本迅速從幾萬塊錢降到幾分錢。
最后,方漢分享了昆侖萬維的愿景:“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我。”他認為,大模型的演進終將實現(xiàn)AGI,而AIGC能力普及則有助于打破強勢文化的壟斷,實現(xiàn)文化平權(quán)。作為一家全球化互聯(lián)網(wǎng)企業(yè),昆侖萬維希望用AI技術(shù)為全球用戶賦能。
阿里通義千問林俊旸:智能模型應(yīng)融入對視覺/語音的理解
阿里通義千問開源負責人林俊旸,在現(xiàn)場分享了阿里通義千問大模型為“走向通用大模型”做出的努力。
林俊旸表示,自開源以來,通義千問Qwen(為了更方便英文發(fā)音,對“千問”的音譯)系列模型受到了國內(nèi)外開發(fā)者的廣泛關(guān)注。
從去年8月開始,通義千問Qwen系列模型陸續(xù)開源上新。從7B、14B參數(shù)規(guī)模大小開始,直到開源了72B參數(shù)版本;最新動作,阿里通義千問家族還有一名“小成員”,是14B參數(shù)的MoE模型。而開發(fā)者社區(qū)的迫切需求,促使阿里快速開源了32B模型——這個模型的表現(xiàn)與72B參數(shù)模型表現(xiàn)接近,并且在某些方面相比,比MoE模型還具有優(yōu)勢。
林俊旸在現(xiàn)場強調(diào),阿里通義千問同時十分專注打造大模型使用生態(tài)。
首先,通義千問的代碼已經(jīng)官方融入了抱抱臉的代碼庫,開發(fā)者可以更方便地使用通義千問的模型。
其次,通義千問在第三方框架支持方面有不少進展,包括ollama在內(nèi)的平臺,都能一鍵使用Qwen系列模型。
多語言、長序列、Post-training、Agent、多模態(tài)等能力相關(guān)問題,林俊旸也在現(xiàn)場做了分享。
多語言:通義千問模型本質(zhì)上是多語言的,而非僅僅是中英雙語的;并且,團隊在多語言能力上進行了檢測和優(yōu)化。
長序列:Qwen系列模型一直沒有卷長文本,這件事并不好做,不僅要保證“長”,同時要保證效果;目前32k版本表現(xiàn)已經(jīng)比較穩(wěn)定;大海撈針等評估發(fā)現(xiàn)長序列可以在Chatbot上落地實用功能。
Post-training:通過SAT等在數(shù)據(jù)等方面,優(yōu)化post-training,讓大模型的潛力爆發(fā)。
Agent:實現(xiàn)方式(之一)是做更多數(shù)據(jù)標注、研究to use agent相關(guān)。
多模態(tài)(Qwen-VL):非常智能的模型應(yīng)該融入對視覺、語音方面的理解,今年會重點關(guān)注視頻模態(tài)的研究,思考如何打造一個VL-Agent。
高通萬衛(wèi)星:具有異構(gòu)計算系統(tǒng)的高通AI引擎可以充分滿足生成式AI的多樣性要求
高通公司AI產(chǎn)品技術(shù)中國區(qū)負責人萬衛(wèi)星在演講中表示,作為芯片廠商,高通正通過提供領(lǐng)先的產(chǎn)品和解決方案,推動AIGC相關(guān)產(chǎn)業(yè)的規(guī)模化擴展。
他指出,高通認為終端側(cè)生成式AI的時代已經(jīng)到來。
高通在去年10月發(fā)布的第三代驍龍8和驍龍X Elite兩款產(chǎn)品中,已經(jīng)將大語言模型完整搬到了端側(cè),賦能了眾多AI手機和AI PC。多模態(tài)趨勢下,今年2月,高通也把多模態(tài)大模型完整地搬移到端側(cè)。在發(fā)布的驍龍X Elite這款產(chǎn)品上,高通也演示了全球首個在Windows PC上運行的音頻推理多模態(tài)大模型。
萬衛(wèi)星表示,不同領(lǐng)域的生成式AI用例具有多樣化的要求,背后所需的AI模型也是千差萬別,很難有一種處理器可以完美適用所有用例。
在這方面,高通推出了具有異構(gòu)計算系統(tǒng)的高通AI引擎,包含多種處理器組件,可以充分滿足生成式AI的多樣性要求。其中重點講了NPU?;谟脩粜枨蠛徒K端用例的多年演進,高通NPU不斷升級。第三代驍龍8的Hexagon NPU還集成了專門為生成式AI打造的Transformer加速模塊,以及微架構(gòu)升級、獨立供電軌道、微切片推理等先進AI技術(shù)。
萬衛(wèi)星還透露高通今年會重點支持多模態(tài)模型端側(cè)化,以及支持更高參數(shù)量大語言模型在端側(cè)的部署。
說完硬件設(shè)計,萬衛(wèi)星介紹了高通的重要AI軟件產(chǎn)品,包括跨平臺、跨終端的統(tǒng)一解決方案高通AI軟件棧(Qualcomm AI Stack)。
你只需要在高通一個平臺上完成模型的優(yōu)化部署工作,可以非常方便的把這部分工作遷移到其它高通產(chǎn)品線。
此外,高通還在今年的MWC巴塞羅那發(fā)布了高通AI Hub(Qualcomm AI Hub)。該產(chǎn)品面向第三方開發(fā)者和合作伙伴,可以幫助開發(fā)者更加充分的利用高通和驍龍底層芯片的硬件算力,開發(fā)出自己的創(chuàng)新AI應(yīng)用。
最后他總結(jié)了高通在AI方面的優(yōu)勢,在于“無與倫比的硬件設(shè)計、頂尖的異構(gòu)計算能力、可擴展的AI軟件工具以及廣泛的生態(tài)系統(tǒng)和模型支持”。
螞蟻李建國:超70%代碼問題單純靠基座模型是解決不了的
超70%的問題需要端到端代碼生成能力解決,目前單純靠基座模型還遠遠不能滿足。
在中國AIGC產(chǎn)業(yè)峰會上,螞蟻代碼大模型CodeFuse負責人李建國這樣說道,他還指出,當前代碼大模型雖然在基座模型和應(yīng)用產(chǎn)品上演進飛速,但要在企業(yè)中真正實現(xiàn)研發(fā)效率的大幅提升,仍面臨諸多挑戰(zhàn)。
從軟件研發(fā)全生命周期來看,從最初的需求設(shè)計到編碼開發(fā)、測試構(gòu)建、發(fā)布運維、數(shù)據(jù)洞察等環(huán)節(jié),寫代碼可能只占1/5甚至更少的工作量。
李建國表示,螞蟻集團希望打造一個“研發(fā)智能體”,通過智能Agents實現(xiàn)任務(wù)分發(fā)與銜接,將各環(huán)節(jié)連接起來,全面提升研發(fā)效能。
CodeFuse剛發(fā)布時,就明確提出“要做全生命周期的代碼大模型”。CodeFuse目前已開源13個倉庫,覆蓋代碼訓練、測試、DevOps運維、程序分析、評測等8大軟件開發(fā)領(lǐng)域。李建國表示,這是全方位的開源。
最后再來看整個領(lǐng)域,結(jié)合外部統(tǒng)計與螞蟻實踐,基座模型在實際運用過程中只能解決大約30%的問題,剩下70%的問題還需要端到端代碼生成能力。除此之外,在Agent推理能力、需求需求拆解、跨模態(tài)交互等方面還需要持續(xù)演進。
李建國還重點提到,垂直場景中,比如金融場景,生成代碼的安全、可信、可靠的要求,這也是螞蟻正在重點攻克的難題。
雖然挑戰(zhàn)不少、道阻且長,但李建國認為,螞蟻將攜手開源社區(qū)一起努力,在萬物摩爾定律的牽引下,未來兩三年可以一定程度解決這個問題。
小冰徐元春:市場真正的運營主體是非常樸素的
小冰公司聯(lián)合創(chuàng)始人兼首席運營官、人工智能創(chuàng)造力實驗室負責人徐元春的演講主題是“數(shù)字人+大模型:打造商業(yè)應(yīng)用新場景”。
“作為一家算法公司怎么掙錢和作為一家AIGC產(chǎn)業(yè)公司怎么賺錢,這是最后要回答的問題。最先要回答的問題是,大家用這個東西怎么賺錢?”,徐元春這樣講。
他通過幾個特別具體的例子,展現(xiàn)了小冰是如何讓大家賺到錢的。
第一個是一個美裝美業(yè)個體博主,她利用小冰虛擬人和大模型平臺,創(chuàng)作出了自己的數(shù)字人,在短視頻平臺用數(shù)字人分身分享創(chuàng)作服裝穿搭內(nèi)容。僅用40多天,她的單條視頻播放量就達到200萬,日均為線下門店引流6-8個意向客戶。而這,已經(jīng)能讓她的生意更好地發(fā)展起來。
第二個是一家中小型的企業(yè),一開始是做軟件開發(fā)、技術(shù)賦能、后臺的支持,現(xiàn)在使用小冰的技術(shù)平臺做轉(zhuǎn)型,成為AI服務(wù)商,4個月內(nèi)為云南300家中小企業(yè)提供了AI賦能服務(wù)。
第三個是更大的行業(yè)領(lǐng)軍企業(yè),他們將小冰的數(shù)字人與大模型技術(shù)深度整合到了自家各類硬件產(chǎn)品中,實現(xiàn)“開箱即用”,每一個有屏的硬件設(shè)備都可以變成一個全新的交互載體。
在徐元春看來,真正能把產(chǎn)業(yè)化應(yīng)用做得越來越深,不在于廟堂之高,而是在江湖之遠:
你發(fā)現(xiàn)真正市場在運行的主體、市場從業(yè)者對AI沒有那么多復(fù)雜的想法,他們非常樸素。
他進一步補充道,小冰將大模型和數(shù)字人更加深入地植入到了企業(yè)的工作流和任務(wù)系統(tǒng)中,數(shù)字員工相當于有了集合企業(yè)知識和數(shù)據(jù)閉環(huán)的大腦,可以讓業(yè)務(wù)流程和客戶溝通更加順暢。
最后徐元春講述了商業(yè)的閉環(huán)。有“云+端”這樣的軟件+硬件產(chǎn)品的閉環(huán),也有交互+內(nèi)容這樣的形式上的閉環(huán)。而今天通過真實的企業(yè)、個體案例,使用技術(shù)去獲得更多競爭力、讓自己的生意變得更好這其實是所有閉環(huán)里最重要的節(jié)點。
“找到并激活每個關(guān)鍵節(jié)點,才能實現(xiàn)技術(shù)商業(yè)化的真正閉環(huán)?!?/p>
AIGC應(yīng)用層:普通人可以怎么AI?
美圖吳欣鴻:基于垂直場景的大模型應(yīng)用創(chuàng)新,窗口期只有兩年
美圖公司創(chuàng)始人、董事長兼CEO吳欣鴻則分享了美圖視頻大模型的探索之路。
美圖作為影像工具起家,經(jīng)過16年的發(fā)展,現(xiàn)在主要聚焦在影像和設(shè)計產(chǎn)品,形成了圖像、視頻和設(shè)計三大AI產(chǎn)品品類。
吳欣鴻現(xiàn)場展示了一個僅用半天時間制作的60秒AI短片,運用了開拍、WHEE、Wink等一系列AI工具,相比傳統(tǒng)動畫工作流,大幅降低了制作門檻,提升了效率。
吳欣鴻預(yù)計今年下半年,將會有很多的國產(chǎn)Sora扎堆上市,美圖也是其中的一家。
我們認為越來越激烈的競爭有三個點非常關(guān)鍵:第一、創(chuàng)意超越現(xiàn)實;第二、工作流的整合;第三、垂直場景的能力。
其中基于垂直模型的大模型應(yīng)用創(chuàng)新,吳欣鴻認為有兩年窗口期。
展望未來,吳欣鴻認為,視頻大模型的標配除了文生視頻,還將涌現(xiàn)圖生視頻、視頻生視頻、音頻生視頻等更多生成方式,應(yīng)用場景非常廣闊。
今年,以Sora為代表的視頻生成只是個開始。隨著視頻大模型對物理世界理解的加深,有望實現(xiàn)劇情設(shè)計、分鏡、轉(zhuǎn)場等更專業(yè)的能力,與視頻制作工作流深度結(jié)合,后續(xù)可以生成1-5分鐘視頻。
金山辦公姚冬:WPS已不再是一個文檔編輯器
金山辦公副總裁、研發(fā)中臺事業(yè)部總經(jīng)理姚冬在本次大會上分享了金山辦公在擁抱AI浪潮中的思考與實踐。
作為一家辦公軟件公司,金山辦公最近五年將“多屏、內(nèi)容、云、協(xié)作、AI”作為戰(zhàn)略重點,在AIGC浪潮下,最近兩年尤其注重AI和協(xié)作這兩點的發(fā)展。
就在前幾日,金山辦公發(fā)布企業(yè)級產(chǎn)品WPS 365。
姚冬表示,當前的WPS已經(jīng)不再是一個文檔的編輯器,而是包含企業(yè)數(shù)據(jù)協(xié)作、知識管理、通信以及各種跟算法相關(guān)的模型服務(wù)等多種功能于一體的辦公平臺。在最近WPS 365發(fā)布中,其包含的WPS AI企業(yè)版聚焦為客戶打造企業(yè)大腦,主打三大類能力:AI Hub、AI Docs和Copilot Pro。
其中,AI Hub是企業(yè)使用AI能力的基座,提供了一個兼容市面上各種大模型的統(tǒng)一接口和開發(fā)體系,讓企業(yè)可以靈活選擇和切換適合自己的模型。
AI Docs是用來幫助企業(yè)盤活海量非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)。
員工每天都在寫文檔,這些其實是企業(yè)非常重要的只是。但過去一直有個問題,這類知識無法再利用,因為非結(jié)構(gòu)化。
傳統(tǒng)的關(guān)鍵詞搜索很難準確命中文檔中的知識,而基于大模型和多模態(tài)技術(shù),WPS 365實現(xiàn)了對企業(yè)內(nèi)部各種格式文檔的智能化閱讀理解、搜索問答,并嚴格遵循文檔權(quán)限管控。
Copilot Pro則是通過AI驅(qū)動自然語言交互式辦公。比如做數(shù)據(jù)分析,傳統(tǒng)方式需要寫腳本、設(shè)計公式、繪制圖表等,門檻很高。在Copilot Pro中,用戶只需用自然語言表達需求,讓AI自動執(zhí)行全流程。
姚冬強調(diào),文檔數(shù)據(jù)在人和人之間沒有傳播其實一個數(shù)據(jù)孤島,而今天的辦公不再只是簡單寫寫文檔分析數(shù)據(jù),更重要的是人和人、人和AI之間的協(xié)作。
印象筆記唐毅:AI驅(qū)動的“第二大腦”,既給用戶自由,又降低信息管理焦慮
印象筆記董事長兼CEO唐毅,有科技創(chuàng)業(yè)、跨國企業(yè)管理以及投融資領(lǐng)域的豐富經(jīng)驗。
他帶領(lǐng)的印象筆記,2018年成立印象研究院,開啟了對AIGC的探索,去年3月起,利用自研印象大模型驅(qū)動“印象AI”產(chǎn)品和服務(wù),落地賦能旗下全線軟件和智能硬件產(chǎn)品。
唐毅的分享聚焦“知識管理”領(lǐng)域。在他看來,AIGC的發(fā)展仍處于早期繁榮階段,挑戰(zhàn)和機遇并存。
他認為,相比算力、數(shù)據(jù)集和模型規(guī)模的快速擴大,模型算法的進展則相對緩慢,且算力的投入和收益不成比例。此外,目前而言,隨著模型訓練對人類公共領(lǐng)域數(shù)據(jù)的窮盡,越來越多合成數(shù)據(jù)的加入也會導(dǎo)致模型輸出效果下降。
與此同時,在實踐和競爭中發(fā)現(xiàn),特定數(shù)據(jù)驅(qū)動的模型能力的增長在不斷加強,模型的小型化和高效化趨勢也日益突出。
談及印象筆記的大模型及產(chǎn)品進化方向,唐毅表示將從復(fù)合AI系統(tǒng)(Compound AI System)角度出發(fā),提升自研印象大模型的能力,同時發(fā)揮用戶、數(shù)據(jù)、場景、載體、交互等方面優(yōu)勢,打造真正的AI超級應(yīng)用。
在AI驅(qū)動下,印象筆記將幫助用戶智能匯聚信息、高效閱讀吸收、輔助靈感記錄與創(chuàng)作、自動完成知識整理與提煉,成為用戶真正的、智能的“第二大腦”。
逐際動力張力:人形機器人未來將實現(xiàn)平臺化應(yīng)用
通用機器人初創(chuàng)公司逐際動力的聯(lián)合創(chuàng)始人兼COO張力,在中國AIGC產(chǎn)業(yè)峰會現(xiàn)場分享了關(guān)于人形機器人發(fā)展及其與AGI關(guān)系的深刻見解。
目前,人形機器人的雙腿移動能力已經(jīng)有了實質(zhì)性突破,而操作能力仍然受限,是因為AI還不能完全根據(jù)多模態(tài)場景形成自己的行為,如何利用多模態(tài)大模型生成機器人自主的運動和控制,是產(chǎn)業(yè)界和學術(shù)界都在追趕和研究的部分。
在硬件和軟件算法方面,尤其是大腦和小腦的協(xié)同上,人形機器人仍需取得更多突破。
張力暢想,未來的人形機器人可以實現(xiàn)平臺化的應(yīng)用,就像今天的iPhone+APP一樣。機器人通過安裝不同的應(yīng)用程序,利用自身的運動控制能力,執(zhí)行對應(yīng)的各種任務(wù),從而極大地擴展應(yīng)用范圍。
從本質(zhì)來講,機器人就是一個類似或者超越人運動能力、計算能力和感知能力的機電系統(tǒng)。技術(shù)方面,事先規(guī)劃好的運動控制這種是相對傳統(tǒng)的技術(shù);而如果需要跟外界產(chǎn)生更多的交互,如環(huán)境認知感知、物體檢測、接觸反饋等,就需要新的技術(shù)。在這方面,AGI對于機器人的影響非常大。
在不斷研發(fā)迭代產(chǎn)品的過程中,逐際動力形成了通過模仿學習、深度強化學習以及基于感知的運動控制等關(guān)鍵的新技術(shù),推出了人形機器人、雙足機器人,以及四輪足機器人。
張力分享了他對人形機器人市場前景的看法:
無論tob還是toc,具身智能在未來有非常大的應(yīng)用場景。
在技術(shù)邊界不斷擴大過程中,如何通過沿途下蛋,把相對成熟的技術(shù)和產(chǎn)品實現(xiàn)商業(yè)化;形成自主的移動能力和移動操作能力是關(guān)鍵;機器人與AGI、AIGC打通,加強場景的認知、理解,實現(xiàn)任務(wù)的分解,更好完成規(guī)劃決策,這些都非常重要。
得到快刀青衣:AI給了很多人一個突破自己的機會
得到聯(lián)合創(chuàng)始人、AI學習圈主理人快刀青衣的演講主題是“六邊形戰(zhàn)士,AI 驅(qū)動下的個人能力革命”。
“六邊”在快刀青衣這里指的是產(chǎn)品能力、輸出能力、提效能力、創(chuàng)新能力、管理能力、設(shè)計能力。在他看來,AI技術(shù)的發(fā)展讓他個人的六邊能力得到全面提升。
他從創(chuàng)新和輸出兩方面分享了過去一年的心得。
首先,快刀青衣認為,AI創(chuàng)新的源泉可以從四個方面考慮:你自己也想用的產(chǎn)品、一個困擾你很久的痛點、你熟悉行業(yè)能預(yù)見到的巨大變化、你對它充滿熱情而又具有挑戰(zhàn)性的事情:
如果四項占兩項就可以干,占三項就非常值得你花很多時間去研究它。
以此為出發(fā)點,快刀青衣介紹了得到自主研發(fā)的AI陪練小程序“開始練練”,用來給員工進行AI實戰(zhàn)陪練,收到AI的反饋。如此一來,練習后的員工再面對真人客戶時就能輕松解答客戶的問題。
接著他分享了開發(fā)這款小程序的初衷。一開始是想讓自己公司的程序員用,后來程序員們都表示自己不是靠溝通干活的,是靠寫代碼。后來有一次發(fā)朋友圈,一個連鎖美容院的老板發(fā)現(xiàn)這對他們一線美容師介紹產(chǎn)品特別管用……
快刀青衣由此感慨,“最初那個起點可能跟你想象的不一樣,過程中可能會有很多不一樣的東西”。
此外,他還強調(diào)了企業(yè)專有知識庫、專有數(shù)據(jù)的重要性,并表示自己在做這個AI項目時給團隊設(shè)置了幾個限制:團隊不超過3人,缺的能力用AI補;不碰硬件,不訓大模型;只做提升用戶能力的培訓場景。
認清自己能力,做自己更擅長的事情,不能因為AI能力強就覺得啥都能干。
輸出能力提升方面,快刀青衣分享了自己從公眾號年更“保證號不被凍結(jié)”到365天日日更的轉(zhuǎn)變,以及每周都要做一場和AI有關(guān)的直播聊一下別人都在做什么。這一切都是這波AI浪潮給他帶來的輸出能力的提升。
最后,快刀青衣引用了喬丹的一句話:“我可以接受失敗,但不能接受不去嘗試?!?/p>
AIGC基建層:如何支撐產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型?
亞馬遜云科技王曉野:四個要點讓企業(yè)抓住生成式AI機遇
生成式AI這個時代已經(jīng)開始,它并不是未來將發(fā)生的事情。
亞馬遜云科技大中華區(qū)產(chǎn)品部技術(shù)總監(jiān)王曉野在演講中表示,生成式AI將在18個月內(nèi)顛覆所有產(chǎn)業(yè),為全球帶來高達4.4萬億美元的巨大市場商機。
對于企業(yè)如何抓住生成式AI機遇,王曉野總結(jié)了四大要點:選對場景、選對工具和合作伙伴、重視數(shù)據(jù)這一企業(yè)核心競爭力、關(guān)注人才培養(yǎng)與AI相關(guān)的監(jiān)管與治理。
他指出生成式AI在跨語言溝通、商業(yè)決策以及洞察、智能服務(wù)和營銷素材的生成、整體運營效率提升等六大場景大有可為。
王曉野指出,得益于模型能力和成本的優(yōu)化,生成式AI正在從局限的文生圖、營銷、聊天機器人等初級應(yīng)用,進化到更廣泛的領(lǐng)域。比如在Claude等大模型支持下,語言翻譯、情感陪伴、游戲內(nèi)容審核等更多場景的落地正在悄然發(fā)生。他強調(diào)多模態(tài)交互將是大模型發(fā)展的重要趨勢。
在助力企業(yè)應(yīng)用生成式AI方面,亞馬遜云科技提出了“三層原子能力”:底層基礎(chǔ)設(shè)施加速層、利用基礎(chǔ)模型構(gòu)建生成式AI應(yīng)用的工具比如Amazon Bedrock、頂層開箱即用的生成式AI應(yīng)用。
從電商到云計算,亞馬遜一直在用技術(shù)和AI顛覆和創(chuàng)新原有產(chǎn)業(yè)。王曉野最后表示,下一個亞馬遜正在構(gòu)建并且持續(xù)投入的地方,就是生成式AI的三層原子能力,希望能與客戶共贏生成式AI時代。
商湯楊帆:打造AI基礎(chǔ)設(shè)施生態(tài)是降低AI應(yīng)用門檻的關(guān)鍵
“中國AI應(yīng)用正在變得越來越多,越來越多新的場景被打開,今年下半年或是明年上半年,我們將看到中國生成式AI市場的爆發(fā)?!?/p>
商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆在大會上做出了這樣的判斷。
楊帆分析道,當前尺度定律仍在主導(dǎo)AI的技術(shù)迭代,AI產(chǎn)業(yè)發(fā)展的核心問題在于“產(chǎn)業(yè)端的投入產(chǎn)出比不夠好”。隨著AI生產(chǎn)和應(yīng)用成本的提高,用降低成本的方式降低使用門檻其實是必然趨勢。
而AI基礎(chǔ)設(shè)施的建設(shè),正是破解這一難題的關(guān)鍵。
只有把這些通用能力,不管大規(guī)模的算力集群還是機器模型的API,甚至未來圍繞超大規(guī)模數(shù)據(jù)完整的體系,把它做標準化、基礎(chǔ)設(shè)施化、服務(wù)化,才有可能在未來讓整個AI產(chǎn)業(yè)創(chuàng)新門檻更低、性價比更高,更多人進來,在上面賺到錢。
關(guān)于商湯在這方面的投入,楊帆先是介紹了商湯在臨港投建的智算中心的最新的進展:
截至去年底,包括臨港在內(nèi)已經(jīng)建成七八個節(jié)點形成連接,還有很多新的節(jié)點在建。連接算力超過12000P,領(lǐng)先單點算力接近10000P。同時,商湯在芯片層面也與產(chǎn)業(yè)鏈展開了廣泛合作,臨港智算中心已有超15%的國產(chǎn)芯片算力。
夯實算力基礎(chǔ)之外,楊帆還講述了商湯推出的不同層級的軟件產(chǎn)品和服務(wù)體系,其中提到了降低模型調(diào)用成本的全套解決方案。
他還分享了商湯自家大模型的發(fā)展,除了去年看到比較多的語言類的任務(wù),現(xiàn)在更多在圖像、視頻、三維重建不同領(lǐng)域提供不同基礎(chǔ)模型的方案。
總的來講,商湯還是更希望以基礎(chǔ)設(shè)施平臺化能力支撐更加繁榮的場景生態(tài)。
AIGC洞察者:Scaling Laws是關(guān)鍵
北大袁粒:大模型幻覺問題,我們幾乎是公開最早提出檢索增強來解決
北京大學深圳研究生院助理教授袁粒在大會上分享了他們團隊在多模態(tài)模型垂直領(lǐng)域應(yīng)用的實踐經(jīng)驗。
他表示,用來閑聊的玩具并不能滿足用戶真正的需求,AI必須轉(zhuǎn)化為實實在在的生產(chǎn)力,而生產(chǎn)力則是由垂直領(lǐng)域來轉(zhuǎn)化。
袁粒教授介紹了他們團隊基于鵬城的云腦和自建算力,基于通用和行業(yè)數(shù)據(jù)開發(fā)的幾款代表性產(chǎn)品:
ChatExcel:一款面向數(shù)據(jù)表格處理的多模態(tài)AI助手,可用文字直接操縱表格,進行數(shù)據(jù)可視化和營銷策略分析等。這項成果已經(jīng)在某奢侈品巨頭落地應(yīng)用。開發(fā)這塊應(yīng)用的博士生也創(chuàng)辦了元空AI。
ChatLaw:中文法律垂直領(lǐng)域應(yīng)用,可為用戶和律師提供信息分析、結(jié)構(gòu)化抽取、生成法律文書等服務(wù)。該產(chǎn)品采用了檢索增強技術(shù),引入法律文本數(shù)據(jù)庫參考,有效緩解了大模型的幻覺問題。
檢索增強這一做法當時我們也是業(yè)內(nèi)最早做出來的,只是我們沒有把這個概念提出來,讓大模型做大模型的事情,讓檢索做檢索的事情。
最后袁粒教授介紹了他們同北大校友企業(yè)兔展智能聯(lián)合發(fā)起的Sora復(fù)現(xiàn)開源計劃Open-Sora Plan,目標是實現(xiàn)一個視覺版LLaMA。該項目分為三個技術(shù)部分:視頻編解碼器、Diffusion Transformer和條件注入。
目前已經(jīng)開源了第一版預(yù)訓練模型和CausalVideoVAE,在開源社區(qū)引起廣泛關(guān)注,在GitHub上獲得近萬星。該框架最大特點是能夠生成較長視頻,得益于訓練時壓縮喂入的長視頻片段。
接下來,該項目將分三個階段實現(xiàn)更高的復(fù)現(xiàn)目標:第一階段已開源;第二階段爭取開源支持20秒720P視頻生成的模型;第三階段希望借助產(chǎn)業(yè)界算力實現(xiàn)超越原版Sota的性能。
袁粒教授表示,開源推動了AI的繁榮,他們也希望通過開源回饋社區(qū),讓學術(shù)界和產(chǎn)業(yè)界都能共享技術(shù)成果。
硅谷Fusion Fund張璐:初創(chuàng)企業(yè)在現(xiàn)階段都可走“雞尾酒”模式
作為長期關(guān)注和布局AI領(lǐng)域的頂級投資人,硅谷Fusion Fund創(chuàng)始合伙人、斯坦福大學客座講師張璐分享了她對全球尤其是硅谷AI技術(shù)與產(chǎn)業(yè)發(fā)展的深度洞察。
張璐指出,AI正在成為一項全產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型工具,而海量高質(zhì)量數(shù)據(jù)的涌現(xiàn)為AI的大規(guī)模應(yīng)用奠定了基礎(chǔ)。
在此背景下,AI將帶來比互聯(lián)網(wǎng)時代大10倍的機會,但其中只有三分之一會留給初創(chuàng)企業(yè)。
作為初創(chuàng)企業(yè),找到對的工業(yè)界和對的應(yīng)用場景,找到合適的切入點非常關(guān)鍵,數(shù)據(jù)是核心。怎樣拿到高質(zhì)量的數(shù)據(jù)?怎樣讓數(shù)據(jù)成為你的競爭優(yōu)勢點?
初創(chuàng)企業(yè)要想在AI浪潮中抓住先機,必須找準自身的創(chuàng)新切入點,充分利用大公司搭建的生態(tài)平臺實現(xiàn)共同發(fā)展。
現(xiàn)階段,初創(chuàng)企業(yè)基本上都可以做“雞尾酒”模式,即調(diào)動最前沿大模型的API,在上面配套使用開源模型,再自己做些修改進行模型調(diào)優(yōu)。
“在這個優(yōu)化過程中,很快會發(fā)現(xiàn)兩個特點。”張璐說,第一個特點是數(shù)據(jù)的質(zhì)量比數(shù)據(jù)的數(shù)量更重要;第二是不需要一個模型去解決所有的問題。
在投資方向上,張璐表示,F(xiàn)usion Fund聚焦AI的應(yīng)用層和基礎(chǔ)設(shè)施兩個維度。
其中,應(yīng)用層主要關(guān)注醫(yī)療、金融保險、機器人、太空等擁有海量高質(zhì)量數(shù)據(jù)和廣闊應(yīng)用前景的領(lǐng)域;基礎(chǔ)設(shè)施層則布局從芯片到云端的各個技術(shù)節(jié)點,旨在突破算力、能耗、隱私等AI發(fā)展的關(guān)鍵瓶頸。
張璐在演講中談到,隨著開源社區(qū)的蓬勃發(fā)展,小模型、行業(yè)專屬模型也將成為AI應(yīng)用的重要趨勢。
她強調(diào),對于創(chuàng)業(yè)者而言,高質(zhì)量數(shù)據(jù)的獲取與應(yīng)用比海量數(shù)據(jù)更為關(guān)鍵,定制化的小模型在特定場景下的效能甚至可以與通用大模型相媲美。
人大盧志武:有算力就有超越Sora的可能
中國人民大學高瓴人工智能學院教授盧志武分享主題為《VDT:基于Transformer的通用擴散視頻生成》。
VDT是Video Diffusion Transformer的縮寫。這是盧志武帶隊的項目,去年5月發(fā)布在arXiv上,并已被頂會ICLR接收。
它的創(chuàng)新之處是將Transformer應(yīng)用于視頻生成——這遠在OpenAI發(fā)布Sora之前,以及在模型中引入統(tǒng)一的時空掩碼建模。
為什么要將視頻生成從基于Diffusion模型轉(zhuǎn)向基于Transformer模型?
盧志武表示,Transformer模型具有捕捉長期或不規(guī)則時間依賴性的優(yōu)勢,這在視頻領(lǐng)域尤為重要;而Transformer模型的參數(shù)量可以根據(jù)需要增加,這為提高模型性能提供了靈活性。
在演講中,盧志武提到了VDT模型中關(guān)鍵的時空Transformer block,并解釋了其與現(xiàn)有模型如Sora的細微差別。他指出,由于算力限制,團隊在設(shè)計時采取了空間和時間分開的處理方法,以提高效率。
那VDT與Sora這樣的SOTA模型相比如何?盧志武分析,兩者在時空Attention處理上有所不同,但這個差別并不是本質(zhì)上的。
我們推測Sora強大的物理世界模擬能力,主要來自于統(tǒng)一的時空token化和Attention機制。
盧志武在最后表示,團隊通過實驗發(fā)現(xiàn),VDT模型效果只和消耗的算力有關(guān),這與OpenAI的圖像生成模型DiT的結(jié)論一致。
“算力越大效果越好。拿到更多算力,超越Sora也不是不可能?!?/p>
圓桌對話:ROI是衡量AIGC應(yīng)用價值的第一標準
“你好,新應(yīng)用!”峰會設(shè)置了一場圓桌論壇,討論的主題非常務(wù)實:怎么落地?如何賺錢?
——從ChatGPT問世到現(xiàn)在,一年半的時間里,AIGC有一個非常明顯的趨勢,就是從建設(shè)基礎(chǔ)層逐步向“用起來”去發(fā)展。今年也被很多人認為是AIGC應(yīng)用元年,在這個時間節(jié)點上,有必要坐下來聊一聊與AIGC相關(guān)的接地氣的話題。
本次邀請到的三位代表性嘉賓分別是:
輕松集團技術(shù)副總裁高玉石,主導(dǎo)了該集團在健康保障領(lǐng)域的AI智能體系研發(fā)建設(shè)。
阿里云通義大模型業(yè)務(wù)負責人徐棟,在云原生、端云架構(gòu)和AI大模型領(lǐng)域的深入實踐。
在AI和企業(yè)服務(wù)領(lǐng)域積累了寶貴經(jīng)驗的瀾碼科技創(chuàng)始人兼CEO周健。
在量子位主編金磊的主持下,圓桌主要圍繞3個話題展開:大模型應(yīng)用用得怎么樣了、AI賺錢之道各有招、百模大戰(zhàn)利大于弊。
大模型應(yīng)用用得怎么樣了
高玉石表示,輕松問醫(yī)Dr.GPT的升級給醫(yī)患雙方都帶來很大便利。在醫(yī)生端,臨床研究的效率提升2倍;科普內(nèi)容創(chuàng)作實現(xiàn)月產(chǎn)萬篇規(guī)模;智能輔助診療的采納率達86%,診斷時間從十分鐘縮短為1-2分鐘。患者端的健康顧問覆蓋30多萬用戶,活躍率70%。
周健的瀾碼科技基于大語言模型打造企業(yè)級AI Agent,服務(wù)于企業(yè)日常辦公場景下的增強自動化和創(chuàng)新業(yè)務(wù)的開展,在保險、銀行、政務(wù)等行業(yè)和領(lǐng)域已實現(xiàn)專家知識賦能基層員工和管理增效的典型應(yīng)用。
徐棟從通義大模型的視角給了兩個維度的觀點,目前看到第一類是大模型塑造了產(chǎn)業(yè)的核心商業(yè)模式,比如游戲行業(yè)的NPC、社交領(lǐng)域的角色扮演,以及像智能硬件端側(cè)的應(yīng)用;第二類是企業(yè)級市場,未必是對商業(yè)模式做了根本性重塑,但大模型突出體現(xiàn)在降本增效上,最典型的客服場景、知識庫的問答等等,這些場景在企業(yè)內(nèi)部提效幫助很大。
AI賺錢之道各有招
在AIGC商業(yè)化方面,徐棟表示目前AIGC應(yīng)用尚未出現(xiàn)殺手級產(chǎn)品,未來可能出現(xiàn)基于訂閱制的創(chuàng)新商業(yè)模式,可以拭目以待。
高玉石則表示他們主要通過為C端用戶提供增值服務(wù)獲利,如醫(yī)療健康類的保險、商城、科普付費等。對B端則主要是按需付費。
周健提到一種可能性是把AI Agent/基于大語言模型的數(shù)字員工按月收費。將專家知識、模型、算力等全新生產(chǎn)要素整合為一套服務(wù),面向金融等行業(yè)按使用量收費分成。
對于如何評判一款A(yù)IGC產(chǎn)品的價值,三位嘉賓一致認為要看其能否提升ROI,包括降本增效、提高收入或改善用戶體驗等。但具體衡量方式要根據(jù)行業(yè)和場景特點而定。
百模大戰(zhàn)利大于弊
針對去年百家爭鳴的“百大模大戰(zhàn)”是否有必要,高玉石認為從加速技術(shù)發(fā)展角度看是有價值的,但資源損耗問題需要注意。他預(yù)判最終可能在科技巨頭及其投資的創(chuàng)企中展開洗牌。
周健提出,未來通用大模型可能只需要少數(shù)幾家,但細分的垂直領(lǐng)域模型可能多達上百個,需要更多創(chuàng)業(yè)公司參與。
徐棟也認為,“百模大戰(zhàn)”并非完全鋪張浪費,它培養(yǎng)了人才隊伍,積累了模型和數(shù)據(jù)方面的經(jīng)驗,我們也歡迎非同質(zhì)化的模型的競爭,這些培養(yǎng)的人才、積累的經(jīng)驗也會幫助大模型落地到千行百業(yè),對未來AIGC的商業(yè)化大有裨益。
后續(xù)還將有大會嘉賓更詳細版內(nèi)容分享,盡情關(guān)注!
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )