前段時(shí)間,一組關(guān)于80后死亡率的數(shù)據(jù)在網(wǎng)上引發(fā)廣泛關(guān)注。不少自媒體為追逐流量熱度,不斷渲染炒作,助長了這些離譜數(shù)據(jù)的傳播。近日,央視新聞等權(quán)威媒體以及相關(guān)專家紛紛辟謠,指出這一數(shù)據(jù)與事實(shí)嚴(yán)重不符。
專家表示,第七次全國人口普查的時(shí)間是2020年,其結(jié)果顯然無法預(yù)測2024年的死亡率。此外,人口普查數(shù)據(jù)只會公布對應(yīng)時(shí)期的死亡率,例如2020年的第七次全國人口普查,反映的是2019年11月1日至2020年10月31日的死亡率,并不存在針對特定群體(如“80后”)的累積死亡狀況統(tǒng)計(jì)。對于網(wǎng)絡(luò)上出現(xiàn)的“5.2%”的死亡率數(shù)據(jù),錯(cuò)誤非常明顯。因?yàn)閷I(yè)統(tǒng)計(jì)數(shù)據(jù)中,死亡率通常以千分率表示,而不是百分率,此外相關(guān)內(nèi)容,還存在其他定義混淆等專業(yè)常識上的明顯錯(cuò)誤。
隨著中國網(wǎng)民突破11億,其中約2.5億人已成為生成式AI用戶。AI在帶來紅利的同時(shí),也帶來了風(fēng)險(xiǎn)與挑戰(zhàn)。
AI為何會出錯(cuò)?
科普中國曾指出,就像我們在考試時(shí)遇到不會的題目,我們會試圖用已知知識去推測答案一樣,AI在遇到信息缺失或不確定的情況時(shí),會基于自己的“經(jīng)驗(yàn)”(訓(xùn)練數(shù)據(jù))進(jìn)行填補(bǔ)和推理。這不是因?yàn)锳I想要欺騙我們,而是它在試圖用自己的理解的模式來完成這個(gè)任務(wù)。
大模型的認(rèn)知來源于數(shù)據(jù),這些數(shù)據(jù)來自公開數(shù)據(jù)集、互聯(lián)網(wǎng)爬取的數(shù)據(jù),以及自有或第三方數(shù)據(jù)。
然而,由于訓(xùn)練語料、數(shù)據(jù)來源不足等多重因素,AI大模型也存在認(rèn)知上的不足,難免生成錯(cuò)誤或虛假信息,也就是業(yè)內(nèi)常說的“幻覺”。
“最主要的原因在于,大模型的根本原理是對下一個(gè)token的預(yù)測。既然是預(yù)測,那么就是選擇概率相對最大的路徑進(jìn)行推理,而這條路徑并不包含“事實(shí)”和“邏輯推理”。”明略科技相關(guān)專家指出。
企業(yè)如何應(yīng)對AI幻覺?
隨著新進(jìn)國民頂流DeepSeek的爆火,AI已在全民范圍實(shí)現(xiàn)了破圈,而企業(yè)對AI賦能業(yè)務(wù)的需求也愈發(fā)迫切。然而,專業(yè)領(lǐng)域?qū)I輸出信息的真實(shí)性、準(zhǔn)確性要求更為嚴(yán)格。那么在實(shí)際業(yè)務(wù)場景中,企業(yè)如何取其長處、避其短處,讓AI更好地為業(yè)務(wù)服務(wù)呢?
明略科技相關(guān)專家表示,AI有不同的應(yīng)用場景,有的需要發(fā)散和想象,有的則需要嚴(yán)謹(jǐn)和收斂。企業(yè)場景大多要確保答案嚴(yán)謹(jǐn)、有根據(jù),不能出錯(cuò)。
企業(yè)可以通過選用特定模型、給定所需材料、增加指令引導(dǎo)等三種主要方式來緩解AI幻覺:
1.選用特定模型指令遵從和總結(jié)引用上表現(xiàn)較好的模型,在訓(xùn)練時(shí)往往偏向“引用原文”回答。因此用戶在AI給出的答案中可以看到更多原文內(nèi)容,而非AI自由發(fā)揮的結(jié)果。
2.給定所需材料加入與問題相關(guān)的材料和信息,AI便可以判斷材料與問題之間的關(guān)系,并傾向于使用給定材料進(jìn)行回答。
3.增加指令引導(dǎo)明確約束,告訴AI要基于已有事實(shí)回答,不要進(jìn)行推測;標(biāo)注不確定,對于模糊信息,需標(biāo)注“此處為推測內(nèi)容”等。
從模型角度來看,GPT-4等模型幻覺較少的原因在于:一是增強(qiáng)訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,相當(dāng)于用高質(zhì)量語料,覆蓋更多用戶場景;二是后期驗(yàn)證和校正機(jī)制;三是使用更復(fù)雜的約束和規(guī)則。
其中,第一點(diǎn)最為關(guān)鍵,即大部分問題都有對應(yīng)語料進(jìn)行過訓(xùn)練。但對于沒見過的場景和問題,在沒有對應(yīng)語料的情況下,大模型編造依然存在。因此,從AI大模型的“養(yǎng)料”——數(shù)據(jù)側(cè)開始規(guī)避幻覺至關(guān)重要。
明略科技認(rèn)為,對企業(yè)而言,一方面,在特定行業(yè)場景中,企業(yè)要用事實(shí)性數(shù)據(jù)反AI幻覺,選用權(quán)威數(shù)據(jù)源,有效彌補(bǔ)大模型在專有知識上的缺失;另一方面,企業(yè)要加強(qiáng)知識庫建設(shè),并充分運(yùn)用檢索增強(qiáng)生成(RAG)技術(shù)。
RAG相當(dāng)于為大模型配備了一個(gè)超級外掛,用戶可以隨時(shí)從可靠資料中獲取可靠信息,從而獲得更加靠譜的答案。
目前,明略科技在RAG領(lǐng)域引入了多模態(tài)圖表識別、PDF表格定向增強(qiáng)、文檔路由、指代消解、檢索重排、元數(shù)據(jù)增強(qiáng)等20+技術(shù),在細(xì)節(jié)中打磨產(chǎn)品,提升信息提取、信息召回、知識問答的準(zhǔn)確率和召回率,進(jìn)而提升了企業(yè)在知識檢索和問答的體驗(yàn),讓企業(yè)知識發(fā)揮出更大價(jià)值。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )