采寫/王舒然
編輯/萬天南
國產(chǎn)大模型集體交答卷了。
8月31日,首批11家國產(chǎn)大模型獲批上線,包括百度的“文心一言”、 商湯科技的“商量SenseChat”、 智譜AI的“智譜清言”、MiniMax的“ABAB”、 上海人工智能實驗室的書生通用大模型、抖音的“云雀”、百川智能的“百川”以及中科院旗下的“紫東太初”、 科大訊飛的“訊飛星火認知大模型”、阿里“通義千問”、360智腦。
其中,文心一言、商量SenseChat、抖音基于“云雀”研發(fā)的AI智能助手“豆包”、智譜清言、MiniMax的“ABAB”、“訊飛星火認知大模型”已經(jīng)面向公眾開放測試。
另據(jù)第一財經(jīng)報道,阿里“通義千問”、360智腦也預(yù)計在未來一周左右陸續(xù)開放。
自今年2月ChatGPT掀起“生成式AI”熱后,國產(chǎn)大模型齊齊備戰(zhàn),7個月后的今天,到了驗收成果的時候。
就速度而言,不可謂不驚喜,但真正讓人關(guān)心的還是效果如何。
《財經(jīng)故事薈》體驗了上述6家已經(jīng)開放測試的大模型,從文本創(chuàng)作、數(shù)理計算、作畫、信息檢索等角度與其做了對話,發(fā)現(xiàn)這些大模型已經(jīng)能解決相當(dāng)一部分問題,尤其在文本創(chuàng)作方面頗有些亮點。當(dāng)然,有瑕疵也在所難免,但就短短半年的沉淀而言,總體值得給一個肯定。
需要說明的是,大模型輸出的結(jié)果存在隨機性,即便是同一指令,每次生成的內(nèi)容也有差異,因而不能就有限的體驗去定論模型的高下。
不過,國內(nèi)大模型榜單SuperCLUE發(fā)布的大模型8月排行榜,倒是能體現(xiàn)出這些大模型的總體水平。排行榜顯示,在國產(chǎn)大模型中,百川智能的Baichuan-13B-Chat(V2)拿下榜首,MiniMax的MiniMax-abab5及百度的文心一言(V2.2.3)緊隨其后。
文本創(chuàng)作:頗有亮點
文本處理是這些大模型的主攻方向之一,其中,基于文本的創(chuàng)作是重頭戲,其一直肩負著解放生產(chǎn)力的眾望。
此次體驗重點針對寫詩、起標題、構(gòu)思文章、潤色作文的能力進行。
其一,寫詩方面,這些大模型總體表現(xiàn)都不錯,創(chuàng)作的詩基本都有合理的語義和語境,而不只是詞與詞的無邏輯拼湊。
比如,指令是“寫一首詩,關(guān)鍵詞包含江湖、菩提、相逢”時,文心一言、商量大模型、MiniMax大模型均表現(xiàn)不錯,尤其掌握了押韻的精髓。
(左:文心一言,中:商量,右:MiniMax)
相對而言,百川大模型、訊飛星火、智譜清言、抖音“豆包”在押韻方面有時不夠穩(wěn)定。
(左:訊飛星火,右:智譜清言)
其二,起標題方面,這些大模型也基本能抓住中心思想,雖然代替人的思考還不現(xiàn)實,但可以提供參考。
比如,輸入《財經(jīng)故事薈》之前寫的關(guān)于“短視頻造假背后的流量經(jīng)濟及造假產(chǎn)業(yè)鏈”的段落后,文心一言、訊飛星火、智譜清言、百川大模型的結(jié)果如下:
(左上:智譜清言,左下:商量,右上:訊飛星火,右下:百川)
而頗讓人有點驚喜的是MiniMax大模型的標題,其看起來不只是“組合”已有關(guān)鍵詞,而是有自己的歸納,部分直接拿來用也未嘗不可:《短視頻造假屢禁不止:揭秘背后的利益鏈和傳播機制》、《短視頻造假亂象:“流量為王”時代的道德困境》、《短視頻造假:一場博人眼球的“游戲”》、《造假短視頻:平臺、創(chuàng)作者與看客的共謀》、《短視頻造假:技術(shù)與人性的扭曲》。
值得一提的是,在上述體驗過程中,百川大模型有一個比較迷惑的現(xiàn)象,其似乎在“某些內(nèi)容輸入字數(shù)過多”時無法處理,會提示回答不了,縮減段落后才會給出結(jié)果。
比如,上述測試段落有1600多字,縮減為1200多字后才能回答,但在嘗試另一個1400多字的段落時,卻可以正常處理,原因無從得知。
其三,潤色文章方面,各家水平可圈可點,彼此難分上下。
一方面,它們都能處理基本的錯別字、標點、語法等問題,只不過處理方式有差異。
比如,對于“我們自天性來說,本是嬌小的,本是弱小的”的潤色,文心一言會處理成“從天性來說,我們本是嬌小且弱小的”,而百川、智譜清言、訊飛星火則傾向于更簡潔的處理,類似于“我們天生就是渺小的,脆弱的”。
但這種處理風(fēng)格并不固定,比如,對于“我打小住在鄉(xiāng)村,我十分稀愛下雨天,每次偶然對上下雨,我都很激動”的潤色,文心一言的處理更簡潔“我從小在鄉(xiāng)村長大,對雨天有著深深的喜愛”;訊飛星火則是在原有表達基礎(chǔ)上做簡單修飾“我自幼生活在鄉(xiāng)村,我非常喜愛下雨天。每當(dāng)偶然遇到下雨天,我總是興奮不已。”——可見,AI算法帶有強烈的“隨機性”。
文心一言的結(jié)果
另一方面,在一些語義理解上,各家的識別與處理也有差異。
以潤色“因為下雨啊,可以讓一個人獲得成長,使其變得更美好呀!”為例,文心一言、抖音“豆包”的處理更好一些,它們都將“下雨讓人獲得成長”調(diào)整成“下雨讓生命或萬物得到滋潤”,顯然更合適,而其他大模型則沒有如此調(diào)整。
其四,在構(gòu)思文章方面,幾家大模型的表現(xiàn)均有一定驚喜。
比如,輸入指令“分析鐘薛高進軍平價雪糕市場所面臨的挑戰(zhàn)”,幾家大模型都關(guān)注到了“與蒙牛、伊利等品牌的競爭”、“對鐘薛高品牌形象的影響”、“成本控制”的角度。
尤其值得稱贊的是,文心一言、抖音“豆包”還特別關(guān)注到“鐘薛高將面臨的銷售渠道挑戰(zhàn)”——這完全能給寫稿者提供一定思路。
抖音“豆包”的結(jié)果
不過,瑕疵也在所難免,在“分析鐘薛高推出低價雪糕的原因”問題上,幾家大模型雖然都給出了3-4點分析角度,但其實有些角度的本質(zhì)含義一樣,均指向“擴大消費群體,開拓市場份額”,是可以合并的。
以文心一言為例:
這說明在語義理解上,這些大模型還有不小的進步空間。
實際上,在體驗過程中,就曾在語義理解上出現(xiàn)過比較離譜的現(xiàn)象。
比如,在“制定老年人愛看的2024年春晚節(jié)目單”問題上,訊飛星火、智譜清言、百川大模型、商量大模型、抖音“豆包”的人員名單中都出現(xiàn)了“鄧麗君”或“趙麗蓉”等已過世明星。
訊飛星火的結(jié)果
再比如,在“請寫一個‘火腿腸炒鼠標’的菜譜”問題上,智譜清言、訊飛星火、商量大模型、抖音“豆包”均指出鼠標不能食用,百川大模型則很配合,還特意標注“使用廢棄不用的鼠標”,著實有點冷幽默。
百川大模型的結(jié)果
文心一言更是有求必應(yīng),“將鼠標去除內(nèi)臟”的步驟讓人啼笑皆非。
文心一言的結(jié)果
但總的來說,短短7個月就能交付上述結(jié)果,這些大模型均值得一個肯定。
數(shù)理計算:水平不穩(wěn)定
在解答數(shù)學(xué)題方面,《財經(jīng)故事薈》抽取了10道初中數(shù)學(xué)題進行測試,結(jié)果是:文心一言、訊飛星火、商量大模型均答對5道,智譜清言答對4道,抖音“豆包”答對3道,百川大模型只答對2道。
比如,在比較簡單的“大于-0.5而小于4的整數(shù)共有多少個?”問題上,文心一言、商量大模型答對,是4個,其余均錯誤。
而且,智譜清言“錯上加錯”,其列舉了5個數(shù),但說成了7個。
智譜清言結(jié)果
在解答物理題方面,關(guān)于物理現(xiàn)象的解釋,這些大模型普遍沒有問題,《財經(jīng)故事薈》抽樣了10道初中物理現(xiàn)象解釋題,它們均能答對9~10道。
比如,在“為什么池水深度看起來比實際的淺?”問題上,它們都能答出“折射原理”。
這或許是因為,物理現(xiàn)象解釋更偏文本檢索和歸納,本質(zhì)還是文本處理能力,這正中大模型的主攻方向。
當(dāng)然,現(xiàn)階段出現(xiàn)一些離譜解釋也在所難免。
比如,在“醫(yī)生給病人檢查時,常把一把小鏡子在酒精燈上燒一燒,然后再放入病人的口腔,為什么?”問題上,百川大模型就答多錯多,其額外提到了“鏡子會吸附口水,而口水含有豐富的礦物質(zhì)等,對于治療某些疾病具有輔助效果”的奇怪解釋。
而在物理計算方面,這些大模型普遍表現(xiàn)欠佳。
在10道涉及物理運動、質(zhì)量與密度、壓強、電學(xué)等不同題型的初中物理試題中,商量大模型表現(xiàn)較為突出,答對了4道,文心一言、百川大模型、抖音“豆包”答對2道,訊飛星火、智譜清言則只答對1道。
比如,在“甲乙兩個同學(xué)沿相反的方向拉測力計,各用力200牛,則測力計的示數(shù)是多少?”問題上,答案是200牛,只有商量大模型答對,且解題思路正確。文心一言、訊飛星火、百川大模型、智譜清言給出的答案都是0,抖音“豆包”則認為是400牛。
商量大模型結(jié)果
再比如,在“某同學(xué)用刻度尺測量鋼球的直徑,測得的四次結(jié)果是1.82CM,1.87CM,1.68CM,1.81CM,則小球的直徑應(yīng)該取多少?”問題上,也只有商量大模型答對1.83CM,文心一言、百川大模型、訊飛星火都是1.79CM,抖音“豆包”是1.825CM,智譜清言解題思路正確,但最終結(jié)果算錯為1.82CM。
智譜清言結(jié)果
但需要備注的是,大模型的數(shù)理計算結(jié)果仍舊不穩(wěn)定。
就如上述直徑問題,智譜清言第一次結(jié)果是錯誤的1.82CM,但重新詢問時又給出了1.83CM的正確答案;而在上述測力計問題上,訊飛星火第一次回答是錯誤的0,重新詢問又回答成錯誤的400N。
總的來說,在有標準答案的數(shù)理問題上,這些大模型表現(xiàn)都不能算及格。
作畫水平“拉胯”,“觸雷”概率較大
在6家大模型中,目前只有文心一言、訊飛星火支持作畫。
不過,目前這兩家大模型的作畫能力尚未達到理想狀態(tài),“觸雷”概率不低。
其一,有些畫作看起來有些“假”,不夠真實。
以“馬”、“風(fēng)景”為例,以下是文心一言的刻畫。
訊飛星火的風(fēng)景畫在意境方面更好一些,但馬的刻畫風(fēng)格跟文心一言一樣,有點不真實。
其二,它們對語義的理解還有欠缺。
以“請畫一幅李清照和蘇軾在下棋的畫”為例,文心一言的畫作上只呈現(xiàn)了一個人。
提示之后才增加,但“李清照”下棋坐的位置明顯不對。
而訊飛星火方面,雖然呈現(xiàn)了兩個人,但都是男性,也不符合需求。
經(jīng)提示后,其竟然無法再重新生成圖片,且嘗試多次均如此。
比如,“畫一碗牛蛙面”,訊飛星火的很離譜——面里有整只牛蛙。
(左:文心一言,右:訊飛星火)
再比如,“畫一只正在睡覺的俄羅斯藍貓”,訊飛星火將俄羅斯藍貓理解成藍色的貓,而文心一言雖理解正確,但顧此失彼,對睡覺有些“誤解”。
(左:文心一言,右:訊飛星火)
其三,在面部等細節(jié)的刻畫上,大模型還有不少問題。
比如文心一言畫的人,眼睛有時會出現(xiàn)“斗雞眼”,或者面部、手腳成“模糊的一團”。
訊飛星火也存在相似問題,比如下圖中“牧羊少年”的面部就有些畸形的詭異感。
試圖引導(dǎo)其優(yōu)化,結(jié)果引來了更“災(zāi)難”的畫面:
當(dāng)然,也有值得肯定之處,在不需要刻畫太多細節(jié)的場景下,作品還是能讓人“駐足欣賞”一下。
比如下述兩家大模型給出的山水畫。
(左:文心一言,右:訊飛星火)
總的來說,相比文本能力,大模型的作畫水平需要更多“調(diào)教”,在這個過程中,不僅需要算法和數(shù)據(jù)層面的持續(xù)調(diào)優(yōu),也需要人在指令層面與其磨合,以充分挖掘其潛力。
正如李彥宏所說,未來提出問題比解決問題更重要,10年后,全世界可能有50%的工作是提示詞工程。
信息檢索:準確度待提升
如果把大模型當(dāng)搜索工具用,就需要其在信息更新的及時性、全面度和準確性上達到合格水平。
體驗發(fā)現(xiàn),在部分搜索場景下,這些大模型能提供準確信息。
比如,在“曹操為什么娶林黛玉?”、“張三豐為什么殺張無忌?”、“花生為什么長在樹上?”等問題陷阱里,每一家都能準確告知不存在這個現(xiàn)象。
文心一言結(jié)果
再比如,關(guān)于“是誰提出了新三民主義?”、“淞滬會戰(zhàn)是什么時候?”、“是誰首次培育出了雜交水稻?”等具體問題上,這些大模型也都能正確回答。
但在一些數(shù)據(jù)統(tǒng)計層面,它們表現(xiàn)很不理想。
一方面,有些大模型缺失最新數(shù)據(jù),或者缺少某些特定領(lǐng)域的數(shù)據(jù)儲備。
比如,在統(tǒng)計中國年度新增人口時,文心一言、訊飛星火最新可統(tǒng)計到2022年,但智譜清言只能查到2020年,百川大模型、抖音“豆包”則只能查到2021年,商量大模型完全統(tǒng)計不到此類數(shù)據(jù)。
百川大模型結(jié)果
同樣的,在統(tǒng)計中國年度GDP時,百川大模型最新也只能查到2021年,商量大模型也完全統(tǒng)計不到。
商量大模型結(jié)果
再比如,在部分有關(guān)線下店面信息的問題上,MiniMax大模型、智譜清言、百川大模型、抖音“豆包”會表示無法查詢。
還有一些歷史信息,部分大模型也缺失相關(guān)內(nèi)容,比如,問“中國成功爆炸第一顆氫彈是什么時候”,智譜清言和百川大模型均提示無法查詢。
另一方面,數(shù)據(jù)的準確度也普遍欠佳。
比如,在“請統(tǒng)計下最近5年中國GDP數(shù)據(jù)”問題上,以國家統(tǒng)計局網(wǎng)站上的數(shù)據(jù)為標準,沒有一家是完全正確的。
其中,文心一言只有2021年的數(shù)據(jù)不正確,其顯示是114.37億元,而國家統(tǒng)計局是114.92億元。
經(jīng)過提示后,再重新提問,其做了更正:
百川大模型、訊飛星火、抖音“豆包”則是每一年的數(shù)據(jù)都不正確;MiniMax大模型是2021、2022年不一致;智譜清言則只有2020年是正確的。
此外,在這幾家大模型中,只有MiniMax將“2022年劃分到最近5年”,其余均默認最新顯示到2021年。
MiniMax結(jié)果
其實,準確度欠佳的問題不止出現(xiàn)在數(shù)據(jù)統(tǒng)計上。
比如,在“魯智深為什么三打白骨精”的問題陷阱中,只有文心一言、商量大模型、抖音“豆包”回答不存在,其他大模型都開始“編故事”了。
再比如,在詢問“父母之愛子,則為之計深遠”的典故時,也只有文心一言、商量大模型、抖音“豆包”回答正確,百川大模型認為沒有特定典故,訊飛星火、智譜清言則說錯了典故出處。
抖音“豆包”結(jié)果
還有,查詢電影信息時也有類似現(xiàn)象,在“為陳思誠監(jiān)制的電影《消失的她》寫影評”問題上,只有文心一言、商量大模型、抖音“豆包”描述的事實與電影相符,百川大模型、訊飛星火、智譜清言則有點“串場”,都提到了沒有參演的黃渤。
百川大模型結(jié)果
類似的現(xiàn)象在評價最新電影《封神》時也有出現(xiàn),只有文心一言對劇情的描述正確,其余大模型均將其誤認為是之前的電影《封神傳奇》;而當(dāng)輸入指令更明確為“2023年上映的《封神第一部:朝歌風(fēng)云》”時,百川大模型、商量大模型、訊飛星火仍然錯誤,智譜清言、抖音“豆包”則做了更正。
可以看到,現(xiàn)階段如果把大模型當(dāng)搜索用,還是讓人不放心。
其實,除了上述四大類能力外,這幾家大模型還都具備跨語言處理能力?!敦斀?jīng)故事薈》以最簡單的“我愛你”為例,進行中文與法語、德語等語言的互翻,都能得到準確回答。當(dāng)然,更復(fù)雜的跨語言處理能力還有待繼續(xù)挖掘。
綜上,僅以上述體驗結(jié)果看,現(xiàn)階段的大模型在文本創(chuàng)作方面基本邁過了及格線,在某些場景下還能“制造”一些驚喜感,這頗為難得。但其也像一個偏科的學(xué)生,在數(shù)理方面普遍一般,BUG較多;作畫水平更是有待優(yōu)化,“雷人”概率比較大;信息檢索方面還不穩(wěn)定,用起來不太放心。
那么問題來了,對照當(dāng)下的現(xiàn)實,再回看當(dāng)初大模型被“吹捧”上神壇的那些觀點:“AI的iPhone時刻”“大模型將改變世界”……這些觀點所構(gòu)建的未來還值得期待嗎?
答案毋庸置疑:值得,“莫欺少年窮”!大模型今天交付的答卷只是其漫漫長路上的起點,在此后的每一天,甚至每一小時里,大模型可能都處在無止境的進化中。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。