零點有數(shù)董事長袁岳:算法產(chǎn)業(yè)化應(yīng)更多聚焦中模型發(fā)展

袁岳,零點有數(shù)董事長,黑蘋果青年公益理事長,飛馬旅聯(lián)合創(chuàng)始人,獨立媒體人,發(fā)表關(guān)于數(shù)據(jù)科學(xué)、管理科學(xué)、社會群體研究等相關(guān)領(lǐng)域著作逾一千三百五十萬字。2021年,在世界人工智能大會之算法峰會期間,袁岳接受億歐專訪,就“算法產(chǎn)業(yè)化”進(jìn)程中的機(jī)遇與挑戰(zhàn)分享了洞見。本次2023世界人工智能大會期間,袁岳再次接受媒體關(guān)于算法模型的專訪,闡述當(dāng)下算法模型發(fā)展的產(chǎn)業(yè)價值,深化大模型背景下算法模型發(fā)展的新議題。

問:ChatGPT的到來引發(fā)了對模型的廣泛討論,而在此之前,我們更多提到的是算法,您認(rèn)為“模型”和“算法”之間有什么聯(lián)系?

零點有數(shù)董事長袁岳:ChatGPT作為人工智能領(lǐng)域的熱門話題之一,引發(fā)了公眾對大模型的關(guān)注熱潮,并將其視為一個新興概念。實際上,"算法"和"模型"可以理解為同一概念,在我們談?wù)撊斯ぶ悄軙r,算法模型作為其核心的基礎(chǔ)組成部分,不僅在模型精度上,在表達(dá)技術(shù)和系統(tǒng)鑲嵌方式上也存在差異。

未來的人工智能在實現(xiàn)其功能時需要多個系列的算法模型來支撐,把整個算法系列叢串聯(lián)起來,可以直觀地看到若干算法模型的組成。

首先,讀取算法在人工智能中扮演著關(guān)鍵角色,它能自動閱讀不同形式的數(shù)據(jù),包括視覺、文本、數(shù)字,還是掃描探頭中的數(shù)據(jù),并承擔(dān)著學(xué)習(xí)和數(shù)據(jù)分析的任務(wù)。最后數(shù)據(jù)讀取完成后,再通過分析算法進(jìn)行數(shù)據(jù)分析,進(jìn)一步做出相應(yīng)的決策或針對性行動。

附圖 2021年億歐專訪零點有數(shù)董事長袁岳

不論是推理、預(yù)測、判別、搜索、推薦、匹配、治療、危機(jī)管理還是人員調(diào)度等任務(wù),都涉及特定類別的算法模型。這些模型在協(xié)同工作中形成一個完整的人工智能系統(tǒng),為公眾提供了優(yōu)越的決策支持和行動能力。未來,這些模型將不斷優(yōu)化,為各領(lǐng)域發(fā)展帶來更廣闊的應(yīng)用前景。

問:如今業(yè)界內(nèi)大、中、小模型蓬勃發(fā)展,這三者之間有何區(qū)別?在大模型時代,中小模型將如何發(fā)展?

零點有數(shù)董事長袁岳:從小模型,中模型,再到大模型,其實可以看作是模型復(fù)雜程度和應(yīng)用范圍的遞增關(guān)系。

附圖 袁岳在第三屆BPAA算法應(yīng)用實踐典范進(jìn)行主題分享

小模型通常用于解決具體的問題或細(xì)節(jié)場景,以股票交易為例,通過簡單算法的開發(fā),可設(shè)定一個止損點和最佳賣出點,當(dāng)股票上漲到某個閾值時則自動賣出股票,同樣地,當(dāng)股票下跌到一定程度時也將自動賣出,以免造成更大損失。

而大模型具有通用人工智能的特點,涉及高密度技術(shù)學(xué)習(xí)技術(shù)、算法模塊的自動組合技術(shù),從而使其預(yù)備更強(qiáng)的遷移使用和算法生存能力。以ChatGPT為代表的大模型為例,其在開始階段就涵蓋多領(lǐng)域的算法模塊,具備更豐富的模塊組合能力、跨領(lǐng)域和多領(lǐng)域的行動能力及決策指導(dǎo)能力,能夠?qū)崿F(xiàn)聊天、決策等多種功能。另一方面,大模型也為我們利用技術(shù)學(xué)習(xí)和算法生成技術(shù)來高效建設(shè)中小模型提供了重要基礎(chǔ)。

中模型則介于小模型和大模型之間,在特定領(lǐng)域中發(fā)揮作用。例如在相親網(wǎng)站上找對象,需要收集各類信息,考察其在不同維度上的表現(xiàn),然后進(jìn)行綜合判斷。在這種情況下,對算法的準(zhǔn)確性和精度要求較高,需要集成多個算法模塊,形成一定規(guī)模和密集度的中模型。

如果把基礎(chǔ)算法作為我們得以展開技術(shù)建模的算法基本工具庫看成一層樓,那么通用算法就是二層樓,而GPT類的大模型建設(shè)為我們開發(fā)應(yīng)用算法累積了足夠強(qiáng)悍的二層樓機(jī)制,它不僅為很多主體提供了便捷的問題探索解決方案,還為處在三層樓的我們在特定領(lǐng)域開發(fā)垂直應(yīng)用算法提供了高效的支持。因此,我們今天需要形成起碼的小模型開發(fā)能力,在中模型領(lǐng)域形成實際的操作能力,再邁向具有實際意義的大模型建設(shè)。

問:2023 WAIC 數(shù)據(jù)要素與隱私計算高峰論壇上提到,數(shù)據(jù)流通與隱私安全的平衡,是大模型應(yīng)用面臨的一個重要問題。您如何看待模型開源的重要性?

零點有數(shù)董事長袁岳:算法本身的快速發(fā)展高度依賴于開源,作為應(yīng)用算法的開發(fā)工具和基礎(chǔ)條件,開源的算法資源庫對人工智能發(fā)展至關(guān)重要。全球范圍內(nèi),美國互聯(lián)網(wǎng)大廠、軟件巨頭和歐美相當(dāng)部分的計算機(jī)大學(xué)為基礎(chǔ)算法的開發(fā)和開源做出了最重要的貢獻(xiàn),在大模型和中模型部分也匯集了大量開源的通用算法和技術(shù)。目前GPT-3.5和GPT-3.0已經(jīng)在很大程度上進(jìn)行開源,國內(nèi)的大模型項目也提供了開源和API接入合作,大幅降低技術(shù)更新成本,極大地改善了算法開發(fā)和演進(jìn)的通道。

附圖 BPAA第三屆應(yīng)用算法實踐典范正式啟動

開源的另一個意義在于模型的高度重復(fù)使用性。例如在智慧政務(wù)領(lǐng)域,我們不再需要所有部門建立系統(tǒng)和算法,而是通過高度可復(fù)用的模型進(jìn)行開發(fā)。在各行政部門解決類似問題的情況下,可以復(fù)用和調(diào)用其中的模塊技術(shù),通過重新集成和組合不同的可調(diào)用模塊技術(shù),更快、更高效地開發(fā)出新的深度解決問題的算法模型。因此,即使在規(guī)模龐大的情況下,開源和有限范圍內(nèi)的共享也能夠極大地提高數(shù)字化的效率,同時降低數(shù)字化成本,極大減少重復(fù)建設(shè)的投入。在這樣的背景下,算法模型將以更高的水平拓展,為社會提供更優(yōu)質(zhì)、更智能的服務(wù)。

總的來說,算法模型是值得投資的領(lǐng)域。盡管對于僅擅長或熱衷于提供系統(tǒng)平臺開發(fā)和重復(fù)開發(fā)的數(shù)字化技術(shù)企業(yè)來說,這并不能算是好消息,因為其生意總量在減少,但從可持續(xù)性和真實需求的角度來看,特別是在當(dāng)前經(jīng)濟(jì)增長面臨巨大挑戰(zhàn)、政府財稅能力受限的情況下,通過算法模型的發(fā)展進(jìn)入到數(shù)字化內(nèi)容建設(shè)階段和高精度智能建設(shè)階段是十分重要且必要的。這個階段性價比更高,具有更清晰的建設(shè)目標(biāo)和更高的建設(shè)精準(zhǔn)度。

問:隨著ChatGPT興起,大模型爆發(fā)式涌現(xiàn),有人提出大模型已成為發(fā)展趨勢,推動AI邁向通用人工智能,也有人認(rèn)為大模型沒有投資價值,您對此持何看法?

零點有數(shù)董事長袁岳:我非常贊同最近一些業(yè)界人士的觀點,即我們當(dāng)前在算法模型的發(fā)展方面應(yīng)聚焦于垂直領(lǐng)域和關(guān)鍵領(lǐng)域,并在這些領(lǐng)域積累基礎(chǔ)數(shù)據(jù)語料,訓(xùn)練出足夠精度的模型,并將其匯聚成具有領(lǐng)域解決能力和競爭力的綜合性解決方案。從我自身的觀點和敏感度來看,中模型領(lǐng)域是一個重點發(fā)展方向,我認(rèn)為這種方法更具范例性,也更具投資價值。

附圖 第三屆BPAA應(yīng)用算法實踐典范圓桌論壇

一方面,算法模型的發(fā)展將改變對數(shù)據(jù)的要求,推動和優(yōu)化數(shù)據(jù)的價值體現(xiàn)、供應(yīng)能力和交易方式。模型的應(yīng)用精度將隨著數(shù)據(jù)不斷豐富而提高,同時隨著算法模型不斷優(yōu)化,其數(shù)據(jù)處理效率和數(shù)據(jù)復(fù)用能力都將顯著提高。

另一方面,先進(jìn)的算法需要更大的算力支持,算法的不斷進(jìn)化對算力的要求不斷提高,需要高精度和高通量的算法支持,因此,對于建設(shè)算力中心和提供算力支持的要求變得更加明確、精準(zhǔn)和清晰。從這個意義上說,算法實際上定義了算力和算量發(fā)展的最新方向和要求。

問:與國際相比,您認(rèn)為我國算法模型發(fā)展是否已經(jīng)能夠與ChatGPT等大模型競爭?

零點有數(shù)董事長袁岳:隨著ChatGPT的問世,網(wǎng)絡(luò)輿論中出現(xiàn)了所謂“百模大戰(zhàn)”的說法。盡管當(dāng)前號稱的“大模型”引起了廣泛關(guān)注,給人以數(shù)量眾多的印象,但這些模型在用戶實際應(yīng)用和競爭領(lǐng)域中,并未真正進(jìn)入實戰(zhàn)場景,也沒有展現(xiàn)出實際競爭力??梢哉f,“百模大戰(zhàn)”也許只是一場虛張聲勢。

與國際相比,我國算法模型在整個大模型項目中缺乏競爭力。盡管科技部新一代人工智能發(fā)展研究中心發(fā)布的《中國人工智能大模型地圖研究報告》(以下簡稱為《報告》)顯示,中國研發(fā)的大模型數(shù)量排名全球第二,僅次于美國,但實際上我們能夠真正達(dá)到大模型水平的數(shù)量有限,能與ChatGPT匹敵的模型更是沒有,無論是在投入準(zhǔn)備、開發(fā)目標(biāo)還是應(yīng)用經(jīng)驗方面,目前仍然沒有與GPT技術(shù)相對應(yīng)的解決方案。

《報告》顯示,我國參數(shù)規(guī)模在10億以上的大模型數(shù)達(dá)79個,其中約有1/3的為通用大模型,其余2/3被稱為行業(yè)垂直大模型或行業(yè)應(yīng)用大模型。

在這些通用大模型中,僅有1/5具備多領(lǐng)域的語料標(biāo)注和實際場景的訓(xùn)練和應(yīng)用經(jīng)驗,其余4/5的模型是基于GPT或準(zhǔn)GPT等開源算法技術(shù)進(jìn)行集成。這些集成提供了一些基礎(chǔ)工具和支持,但由于缺乏特定領(lǐng)域或場景的語料和基礎(chǔ)數(shù)據(jù)進(jìn)行模型訓(xùn)練和實際應(yīng)用的實踐與探索,也可稱為大模型殼兒或技術(shù)框架。

行業(yè)垂直大模型在某個或多個領(lǐng)域中具有豐富的應(yīng)用功能,積累了領(lǐng)域內(nèi)的語料標(biāo)注、模型訓(xùn)練和應(yīng)用經(jīng)驗,并提供了一些解決方案。然而實際上,這些模型中預(yù)訓(xùn)練模型、生成模型或為特定場景提供的解決方案數(shù)量很少,甚至有的尚未付諸實踐。

從這方面上看,在數(shù)字化解決方法中,算法模型的投入需求已十分迫切,亟需加強(qiáng)對關(guān)鍵領(lǐng)域的投入和投資,包括算法模型的開發(fā),以及算法模塊和算法系列的構(gòu)建。

問:您認(rèn)為當(dāng)前算法模型建設(shè)需要如何努力?結(jié)合本次bpaa各領(lǐng)域賽道的案例呈現(xiàn),您對其算法產(chǎn)業(yè)走向深層次應(yīng)用有何展望?

零點有數(shù)董事長袁岳:當(dāng)前算法模型建設(shè)面臨重重挑戰(zhàn),任重而道遠(yuǎn)。各地的人工智能項目、智慧城市建設(shè)和智慧行業(yè)建設(shè)對于模型開發(fā)的預(yù)算不足,合作伙伴、客戶和供應(yīng)商之間對于模型開發(fā)投入方面的觀念和結(jié)構(gòu)也沒有發(fā)生重大調(diào)整。從這方面來說,我們不僅需要在算法模型領(lǐng)域進(jìn)行投資,更需要加強(qiáng)對垂直化機(jī)制、智慧化建設(shè)和內(nèi)容建設(shè)的投入。

在人才建設(shè)方面,目前也存在較大人才缺口,算法模型領(lǐng)域的前進(jìn)步伐需要更多實用的前沿人才提供支撐,而現(xiàn)有人才教育機(jī)制的滯后性需要算法模型行業(yè)積極投身到算法模型人才培訓(xùn)的一線,提供從系統(tǒng)概念、開發(fā)技能,到應(yīng)用方法、實案訓(xùn)練的全程支持。

附圖 BPAA算法應(yīng)用實踐典范200強(qiáng)團(tuán)隊

在大模型熱的背景下,應(yīng)用算法為中模型及行業(yè)應(yīng)用大模型的發(fā)展提供了更好的運(yùn)行環(huán)境和技術(shù)基礎(chǔ),為算法人才發(fā)展、部署和投入提供更多支持。從2020年上海世界人工智能大會上提出要重視算法產(chǎn)業(yè)化建設(shè),到如今連續(xù)三年成功舉辦BPAA算法應(yīng)用實踐典范,我們每年都積累了優(yōu)秀的算法模型TOP50代表,而在第三屆新設(shè)置創(chuàng)新組和創(chuàng)業(yè)組,分別評選TOP50算法模型代表,迄今為止積累了200強(qiáng)算法團(tuán)隊。這些團(tuán)隊是中國本土算法模型的先行者,是在中、小模型已有成就的建設(shè)者,也是未來大模型建設(shè)重要的支持力量。

在數(shù)字新基建的浪潮中,上海市首先強(qiáng)調(diào)算法要素建設(shè),于2021年推出《上海新一代人工智能算法創(chuàng)新行動計劃》,同時在普陀區(qū)也形成了屬于自己的算法發(fā)展特色,為BPAA人才落地提供了有力支持。最后,期待更多算法人才和團(tuán)隊能夠加入進(jìn)來,助推上海算法產(chǎn)業(yè)化高質(zhì)量發(fā)展。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )