123,123

近日，一篇由國(guó)內(nèi)外多位AI專(zhuān)家學(xué)者參與署名的論文，在國(guó)內(nèi)人工智能（AI）學(xué)術(shù)圈里引起了不小的震動(dòng)。

這篇在今年3月26日發(fā)表于預(yù)印本網(wǎng)站 arXiv的關(guān)于“大模型”的綜述報(bào)告《大模型路線圖》（A Roadmap for Big Model），是由北京智源人工智能研究院（以下簡(jiǎn)稱(chēng)“智源研究院”，或“研究院”）發(fā)起的，旨在盡可能涵蓋國(guó)內(nèi)外該領(lǐng)域的所有重要文獻(xiàn)。

據(jù)了解，該報(bào)告由多達(dá)16篇獨(dú)立稿件組成，每篇文章都分別邀請(qǐng)了一組作者撰寫(xiě)并單獨(dú)署名，有國(guó)內(nèi)外多家高校和企業(yè)參與了該報(bào)告的完成，報(bào)告全文長(zhǎng)達(dá)200多頁(yè)，涉及來(lái)自清華大學(xué)、北京大學(xué)、中國(guó)人民大學(xué)、上海交通大學(xué)、哈爾濱工業(yè)大學(xué)、哥倫比亞大學(xué)、蒙特利爾大學(xué)等國(guó)內(nèi)外高校，以及字節(jié)跳動(dòng)、華為、京東、騰訊等企業(yè)以及中科院、微軟亞洲研究院和北京智源AI研究院等機(jī)構(gòu)的100多名作者。

而谷歌大腦（Google Brain）團(tuán)隊(duì)著名科學(xué)家Nicholas Carlini 在其近日的一篇博客中指出，該文章涉嫌抄襲。

Nicholas Carlini舉出的證據(jù)是“大規(guī)模文本重疊”，并在文章中詳細(xì)列舉了該團(tuán)隊(duì)論文存在抄襲其他論文的出處，其中也包括他本人更早發(fā)布的《去重訓(xùn)練數(shù)據(jù)使語(yǔ)言模型更好》（Deduplicating Training Data Makes Language Models Better）。

4月13日晚，該報(bào)告的組織方——智源研究院連夜發(fā)表了《關(guān)于“A Roadmap for Big Model”綜述報(bào)告問(wèn)題的致歉信》。在道歉信中，智源研究院首先明確表示，已對(duì)報(bào)告進(jìn)行了逐項(xiàng)核查，經(jīng)查重確認(rèn)，共16篇文章中的5篇文章章節(jié)，共759詞的內(nèi)容，與其他論文重復(fù)，應(yīng)屬抄襲。智源研究院表示，已從報(bào)告中刪除相應(yīng)內(nèi)容，報(bào)告修訂版在13日當(dāng)天，將提交arXiv進(jìn)行更新。目前，研究院已通知所有文章的作者對(duì)所有內(nèi)容進(jìn)行全面審查，后續(xù)經(jīng)嚴(yán)格審核后再發(fā)布新版本。

該事件在國(guó)內(nèi)AI學(xué)術(shù)社群中，也引發(fā)了不同的反響。

事件爆出后，盡管有很多網(wǎng)友在第一時(shí)間發(fā)起群嘲，但也有一些網(wǎng)友從客觀角度對(duì)事件進(jìn)行了分析。首先，有來(lái)自AI學(xué)術(shù)圈的網(wǎng)友表示，此次事件雖然屬于“抄襲”，但也并不是很多圈外人所想象的那種“抄襲”。

從性質(zhì)上看，“大模型”一文屬于綜述報(bào)告，和一般意義上的科研論文相比，“綜述”是一種“總結(jié)”，資料來(lái)自文獻(xiàn)；而“科研論文”的數(shù)據(jù)是由研究者通過(guò)科研設(shè)計(jì)，自己收集而來(lái)。因此，綜述論文與科研論文無(wú)論從性質(zhì)上還是構(gòu)成上，都不可同日而語(yǔ)。另外，本次被指抄襲的報(bào)告由多達(dá)16篇文章構(gòu)成，且由不同組織機(jī)構(gòu)分別獨(dú)立撰寫(xiě)，因此為什么會(huì)出現(xiàn)所謂“抄襲”的原因，還需要進(jìn)一步調(diào)查。

還有網(wǎng)友表示，《大模型路線圖》的內(nèi)容涉及從“大模型”構(gòu)建前提條件開(kāi)始，到“大模型”應(yīng)用結(jié)束的全流程研究工作，為大模型發(fā)展的歷史和應(yīng)用流程梳理出了清晰的脈絡(luò)，本來(lái)可以幫助讀者更好理解“大模型”的發(fā)展歷史和研究現(xiàn)狀，對(duì)于大模型領(lǐng)域的未來(lái)發(fā)展也能起到指引性的作用，原本應(yīng)當(dāng)是一篇極具價(jià)值的研究綜述，但目前由于抄襲事件，該文章的重要性恐怕要大打折扣，這對(duì)于國(guó)內(nèi)外大模型研究，乃至人工智能學(xué)術(shù)研究來(lái)說(shuō)，都不失為一件憾事。

有網(wǎng)友表示，該報(bào)告是由“百名作者、16篇文章”組成的綜述報(bào)告，是對(duì)大量原始文獻(xiàn)的歸納、總結(jié)、分析，再添加作者觀點(diǎn)而形成，但過(guò)多的作者和機(jī)構(gòu)參與，龐大的創(chuàng)作團(tuán)隊(duì)規(guī)模顯然容易出現(xiàn)各種“難以預(yù)料的問(wèn)題”。

最初發(fā)起指控的Nicholas Carlini本人近日也更新評(píng)論發(fā)出呼吁，“不要把這變成一場(chǎng)獵巫行動(dòng)?！?Carlini在評(píng)論中表示，“這篇論文有100位作者，任何事情都有可能發(fā)生。” “跨度這么大的涉嫌抄襲行為，絕對(duì)不止涉及個(gè)別作者。一小部分作者的不當(dāng)行為，不應(yīng)該被用來(lái)指責(zé)大多數(shù)行為良好的作者?！?/p>

還有一些網(wǎng)友則直接認(rèn)為，該文章的署名作者“都有責(zé)任”。網(wǎng)友表示，原則上來(lái)說(shuō)，一篇文章的所有署名人員必須：對(duì)研究工作的思路或設(shè)計(jì)有重要貢獻(xiàn)，或者為研究獲取、分析或解釋數(shù)據(jù)；起草研究論文或者在重要的智力性內(nèi)容上對(duì)論文進(jìn)行修改；對(duì)將要發(fā)表的版本作最終定稿；同意對(duì)研究工作的各個(gè)方面承擔(dān)責(zé)任以確保與論文任何部分的準(zhǔn)確性或誠(chéng)信有關(guān)的問(wèn)題得到恰當(dāng)?shù)恼{(diào)查和解決。換句話說(shuō)，其所有署名的作者都負(fù)有責(zé)任。

另外，還有部分媒體，對(duì)該事件可能對(duì)未來(lái)國(guó)內(nèi)AI研究前景產(chǎn)生的負(fù)面影響表示擔(dān)心。有媒體撰文表示，該篇論文之所以得到關(guān)注，正是因?yàn)樽髡呤鹈噙_(dá)100人，且其中不乏國(guó)內(nèi)AI業(yè)界和學(xué)界的知名學(xué)者，供職機(jī)構(gòu)更是把中國(guó)知名高校和互聯(lián)網(wǎng)巨頭幾乎一網(wǎng)打盡。此次事件，或許會(huì)給中國(guó) AI 學(xué)術(shù)研究熱潮造成一定打擊。

不過(guò)，也有一些網(wǎng)友指出，作為世界上最大的預(yù)印本網(wǎng)站，arXiv上發(fā)表的論文有“占坑”性質(zhì)，誰(shuí)的論文在arXiv 掛的早，誰(shuí)就擁有了這個(gè)論文的權(quán)力，因此為了搶先占住idea，有些論文的正規(guī)性欠缺打磨和推敲，此次“論文抄襲事件”，在某種程度上也反映出一些AI學(xué)術(shù)研究機(jī)構(gòu)本不應(yīng)有的急躁情緒，應(yīng)引以為戒。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）