123,123

一年一度的高考再次登上熱搜，去年高考，ChatGPT以及國產(chǎn)大模型首發(fā)團隊文心一言、訊飛星火、阿里通義千問等掀起大模型寫作文的大混戰(zhàn)，有的號稱滿分，有的被批零分，有的文采有余情感不足……經(jīng)過一年的時間這些大模型能力是否有大幅提升？恰好今年的高考題目就與人工智能有關，我們來看看誰家“孩子”能拿下高分？我們評測了國內(nèi)知名的五家大模型產(chǎn)品：百度文心一言、科大訊飛星火、Kimi、騰訊元寶、阿里通義千問。先說結論：訊飛星火，完勝。Kimi只是給了一個稿件提綱，其他則陷入了題干中關于“問題”的陷阱中。新課標Ⅰ卷作文題目：隨著互聯(lián)網(wǎng)的普及、人工智能的應用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫一篇文章。要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個人信息；不少于800字。訊飛星火

文心一言

騰訊元寶

KIMI

通義千問

我們再看一遍這道作文題：隨著互聯(lián)網(wǎng)的普及、人工智能的應用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫一篇文章。這道題的題眼是“問題”二字，閱讀材料里“問題”出現(xiàn)了兩次，這兩個“問題”其實是不同的內(nèi)涵，根據(jù)新華詞典的解釋，第一個“問題”對應著“答案”，是“要求回答或解釋的題目”的意思，而第二個“問題”是“需要研究并加以解決的矛盾、疑難”的意思，可以說第一個“問題”是狹義的，第二個“問題”是廣義的，類似英文中question和problem的不同。文心一言、騰訊元寶、通義千問、Kimi都掉進了第一個“問題”的陷阱，一直在重復關于好奇、求知、解答、知識這些淺層話題，而訊飛星火明顯分辨出了兩個“問題”的不同含義，在文章中段就將討論范圍從狹義的需要個體解答的“小問題”延伸到了廣義的人類社會共同面對的“大問題”。這體現(xiàn)的不是簡單的“考試狀態(tài)”，其背后充分體現(xiàn)了星火大模型在語言理解這一大模型核心能力上的領先。為了能更好打分，我們按照全國高考作文評分標準對幾篇文章做詳細分析文心一言：

基礎等級方面，文章始終沒有對互聯(lián)網(wǎng)和人工智能對解決問題和產(chǎn)生問題的核心做出解讀，明顯偏離題意。結構方面，盡管有“首先……其次……再者……綜上所述”這樣看似嚴謹?shù)慕Y構支撐，但段落和段落之間，段落和結論之間，關系并不緊密。發(fā)展等級方面，文心一言分別引用了愛因斯坦、牛頓的名言和一句古詩，一如既往的“掉書袋”看似有創(chuàng)意、有文采，但仔細看來，其內(nèi)在邏輯其實比較混亂，比如這一段：

牛頓的話是關于科學傳承，對這名言的引用顯然有“驢唇不對馬嘴”的感覺。總體打分：35分科大訊飛基礎等級方面，開篇點題，中段在“個體體驗、信息爆炸、人工智能道德倫理”三個方面分析問題，結尾回歸“人類的智慧、勇氣和決心”升華價值，內(nèi)容和表達無懈可擊。發(fā)展等級方面，深刻與豐富做得很好，文采和創(chuàng)意有所欠缺，星火是唯一一個通篇沒有引用名人名言的“考生”，像是個嚴謹?shù)睦砜粕？傮w打分：55分騰訊元寶對題目的理解更加狹隘，感覺通篇一直在重復一種觀點“問題是個好東西”，這是大模型語言理解能力欠佳的表現(xiàn)。每一句話都自然流暢，名言引用也比較恰當，但所有句子湊在一起產(chǎn)生了一種“廢話連篇”的感覺，這是大模型文本生成能力欠佳的表現(xiàn)。畢竟騰訊元寶在5月底剛剛發(fā)布，也許不能要求太高。總體打分：32Kimi作為以長文本著稱的大模型，高考作文理應是Kimi大顯身手的機會，但結果卻令筆者有些意外，Kimi輸出的文章在內(nèi)容上并無特別之處，最大的區(qū)別是它給每一段加上了小標題，沒展示出長文本理解和生成的核心能力，卻有類似“標題黨”的小伎倆？不得不感慨：“Kimi真是個小機靈鬼?！笨傮w打分：42通義千問去年的高考作文AI寫作中，通義千問飽受詬病，被批“空洞沒營養(yǎng)”，今年的通義千問有明顯進步。通義千問的優(yōu)點跟訊飛星火一樣，具備語言理解和文本表達的廣度和深度，缺點跟文心一樣，錯誤引用名人名言刻意展示文采，可謂集眾家所長，及所短?？傮w打分：49Chatgpt 問世以來，“寫文章”成為人工智能大模型產(chǎn)品展示能力的普遍手段，高考作文有著嚴格明確的要求，以及相對嚴謹科學的評分標準，無疑是最佳的試金石。通過本次評測明顯看出，訊飛星火大模型在語言理解和文本表達上的表現(xiàn)更勝一籌，拿高分實至名歸，你們覺得呢？當然各位也可以打開手機或者電腦試試看，如高考作文題目所言，隨著互聯(lián)網(wǎng)的普及、人工智能的應用，這個問題能很快得到答案。

免責聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關。文章僅供讀者參考，并請自行核實相關內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

按照高考打分標準來打分，國產(chǎn)大模型誰的作文寫的好？

下一篇

按照高考打分標準來打分，國產(chǎn)大模型誰的作文寫的好？

下一篇

按照高考打分標準來打分，國產(chǎn)大模型誰的作文寫的好？