123,123

科技云報(bào)道原創(chuàng)。

過(guò)去10年，知識(shí)圖譜可謂是最接近“人工智能”的概念。業(yè)內(nèi)普遍認(rèn)為，知識(shí)圖譜的概念最先是由谷歌于2012年正式提出，主要用來(lái)支撐下一代搜索和在線廣告業(yè)務(wù)。

此后，這項(xiàng)技術(shù)迅速火爆，被國(guó)內(nèi)外多家搜索引擎公司所采用，如：美國(guó)的微軟必應(yīng)，中國(guó)的百度、搜狗等，都在短短的一年內(nèi)紛紛宣布了各自的“知識(shí)圖譜”產(chǎn)品，足以看出這項(xiàng)革新對(duì)整個(gè)搜索引擎界的整體影響。

但這項(xiàng)技術(shù)的應(yīng)用并不僅拘泥于搜索引擎領(lǐng)域范圍。由于讓人工智能具備了認(rèn)知能力和邏輯能力，知識(shí)圖譜進(jìn)而實(shí)現(xiàn)了智能分析、智能搜索、人機(jī)交互、個(gè)性化推薦等場(chǎng)景應(yīng)用，成為互聯(lián)網(wǎng)知識(shí)驅(qū)動(dòng)的智能應(yīng)用的基礎(chǔ)設(shè)施。

可以說(shuō)知識(shí)圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起，成為推動(dòng)互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動(dòng)力之一。

然而，ChatGPT的橫空出世讓整個(gè)AI界都沸騰了。

ChatGPT帶來(lái)的震撼在于，它不用借助知識(shí)圖譜就可以很好地解決用戶對(duì)話知識(shí)問(wèn)答相關(guān)的任務(wù)，具有非常強(qiáng)大的理解能力、流暢的對(duì)話能力和上下文的刻畫(huà)能力。

更重要的是，它將原來(lái)基于特定任務(wù)的模型變成了一個(gè)統(tǒng)一的、基于提示的、任務(wù)無(wú)關(guān)的模型，可以去嘗試解決非常復(fù)雜或困難的、人類參與很多的任務(wù)。

這也讓AI界認(rèn)知產(chǎn)生了分化，有觀點(diǎn)認(rèn)為有了ChatGPT這種大語(yǔ)言模型后，知識(shí)圖譜完全沒(méi)有存在的意義，甚至有的公司已經(jīng)徹底拋棄了知識(shí)圖譜路線。

那么，在大模型時(shí)代，知識(shí)圖譜真的要消亡了嗎？

知識(shí)圖譜vs大語(yǔ)言模型

在討論這個(gè)問(wèn)題之前，先來(lái)了解一下知識(shí)圖譜和大語(yǔ)言模型的異同。

知識(shí)圖譜從字面上看，可以拆分為知識(shí)+圖譜，這樣就可以理解：將需要的知識(shí)數(shù)據(jù)（結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)）以圖譜的形式進(jìn)行展示，這種簡(jiǎn)單的過(guò)程也是知識(shí)圖譜的構(gòu)建過(guò)程。

知識(shí)圖譜通常包含實(shí)體、關(guān)系和屬性三個(gè)要素，例如人名、國(guó)家、語(yǔ)言等實(shí)體，以及人口、首都、官方語(yǔ)言等關(guān)系和屬性。它可以根據(jù)圖譜中定義的關(guān)系提供精確且邏輯一致的答案，因此對(duì)于信息檢索、問(wèn)答和結(jié)構(gòu)化數(shù)據(jù)推理等任務(wù)特別有用。

大語(yǔ)言模型是基于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)，像GPT-4這樣的大語(yǔ)言模型是在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練，以學(xué)習(xí)模式、上下文以及單詞和短語(yǔ)之間的關(guān)系。

它們可以生成類似人類的文本、回答問(wèn)題、提供建議以及執(zhí)行其他自然語(yǔ)言任務(wù)，還可以很好地處理模棱兩可和不完整的信息，并且處理廣泛的主題。

不難發(fā)現(xiàn)，兩者在知識(shí)的學(xué)習(xí)、分析、推理方面有著類似的功能，但卻各有優(yōu)劣勢(shì)。

知識(shí)圖譜通常需要手動(dòng)或半自動(dòng)構(gòu)建，是一種非常耗時(shí)耗人力的工作，隨著知識(shí)的不斷擴(kuò)展和變化，知識(shí)圖譜也需要不斷更新；

同時(shí)，它的作用僅限于圖譜編碼中的知識(shí)范圍，這使得它在處理模棱兩可或不完整的信息時(shí)準(zhǔn)確率較低。

但它的優(yōu)勢(shì)在于準(zhǔn)確的知識(shí)庫(kù)，對(duì)于事實(shí)性的、專業(yè)性的知識(shí)有著非常高的準(zhǔn)確度。

相反，專業(yè)知識(shí)在大模型訓(xùn)練語(yǔ)料里占比非常少，這也使得ChatGPT等語(yǔ)言大模型生成的內(nèi)容的可靠性和真實(shí)性備受質(zhì)疑。

它無(wú)法將真實(shí)與想象、真實(shí)與虛構(gòu)分開(kāi)，這種現(xiàn)象甚至促使創(chuàng)造了一個(gè)新術(shù)語(yǔ)：人工智能幻覺(jué)，維基百科將其定義為“人工智能的自信反應(yīng)，其訓(xùn)練數(shù)據(jù)似乎沒(méi)有合理性”。

同時(shí)，語(yǔ)言大模型需要大量的計(jì)算能力和資源來(lái)進(jìn)行訓(xùn)練和微調(diào)，其花費(fèi)的時(shí)間和成本也不容小覷。

目前，語(yǔ)言大模型只在通用領(lǐng)域給出了較為驚艷的表現(xiàn)，至于在知識(shí)圖譜廣泛應(yīng)用的垂直領(lǐng)域，語(yǔ)言大模型暫時(shí)未顯示出領(lǐng)先的一面。

知識(shí)圖譜退場(chǎng)為時(shí)尚早

正因?yàn)檎Z(yǔ)言大模型暫時(shí)還無(wú)法解決事實(shí)準(zhǔn)確性、可信度、可追溯等問(wèn)題，知識(shí)圖譜的存在就非常有意義。

知識(shí)圖譜或者類似的知識(shí)庫(kù)、知識(shí)引擎，能夠?yàn)榇竽Ｐ吞峁?zhǔn)確的知識(shí)，它可以被用來(lái)通知、聚焦、過(guò)濾和控制生成式人工智能，增強(qiáng)大模型響應(yīng)的智能和可靠性，使其更適合關(guān)鍵任務(wù)。

當(dāng)大模型真正落地到工業(yè)應(yīng)用時(shí)，也需要有知識(shí)圖譜對(duì)專業(yè)領(lǐng)域知識(shí)的支撐，至少短期來(lái)看是非常需要的。

因此，我們也可以說(shuō)，知識(shí)圖譜的構(gòu)建原來(lái)有各種各樣的構(gòu)建方式，現(xiàn)在又多了一種構(gòu)建方式——用大模型去輔助整個(gè)知識(shí)圖譜構(gòu)建，通過(guò)大量語(yǔ)料和大數(shù)據(jù)的學(xué)習(xí)，通過(guò)Prompt去進(jìn)行知識(shí)的激發(fā)。

同時(shí)知識(shí)圖譜反過(guò)來(lái)也能夠去推動(dòng)大模型Prompt工程里的相關(guān)工作，融入到大模型的訓(xùn)練中，使得生成更可控，更準(zhǔn)確。同時(shí)，知識(shí)圖譜也可以提供很多額外的語(yǔ)義信息，幫助大模型的知識(shí)推理做得更好。

所以從本質(zhì)上看，大語(yǔ)言模型出現(xiàn)后，并不是將知識(shí)圖譜消滅了，而是可以發(fā)揮知識(shí)圖譜和大模型這兩種技術(shù)的優(yōu)勢(shì)：在需要可控知識(shí)或可控邏輯的時(shí)候，知識(shí)圖譜會(huì)發(fā)揮更大作用；在需要更自由的交互任務(wù)理解和生成時(shí)，大模型發(fā)揮更好的作用。

結(jié)合這兩種方法的優(yōu)勢(shì)，可以產(chǎn)生更強(qiáng)大和有效的自然語(yǔ)言處理系統(tǒng)。

知識(shí)圖譜與大語(yǔ)言模型的結(jié)合

那么，知識(shí)圖譜如何與大語(yǔ)言模型相結(jié)合呢？

有意思的是，ChatGPT給出了將知識(shí)圖譜集成到大語(yǔ)言模型中的幾種方法：

使用知識(shí)圖譜數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練

將知識(shí)圖譜中的知識(shí)注入到大語(yǔ)言模型的預(yù)訓(xùn)練階段，可以幫助大模型學(xué)習(xí)實(shí)體與其屬性之間的關(guān)系。可以通過(guò)將知識(shí)圖譜三元組（主語(yǔ)、謂語(yǔ)、賓語(yǔ)）轉(zhuǎn)換為自然語(yǔ)言句子并將它們添加到訓(xùn)練語(yǔ)料庫(kù)中來(lái)完成。

使用基于圖的目標(biāo)進(jìn)行微調(diào)

在預(yù)訓(xùn)練之后，使用基于圖的目標(biāo)對(duì)特定任務(wù)的模型進(jìn)行微調(diào)，可以幫助大模型學(xué)習(xí)使用圖中編碼的知識(shí)進(jìn)行推理和推理。這可能涉及將自然語(yǔ)言查詢轉(zhuǎn)換為基于圖形的查詢，以及開(kāi)發(fā)將基于圖形的推理與基于文本的推理相結(jié)合的方法。

例如，可以對(duì)模型進(jìn)行微調(diào)，以預(yù)測(cè)圖形中缺失的實(shí)體或關(guān)系，這可以提高其對(duì)底層結(jié)構(gòu)的理解。

改進(jìn)實(shí)體鏈接和消除歧義

增強(qiáng)模型識(shí)別文本中的實(shí)體并將其鏈接到知識(shí)圖譜中相應(yīng)節(jié)點(diǎn)的能力。這可以通過(guò)在訓(xùn)練或微調(diào)期間結(jié)合高級(jí)實(shí)體鏈接和消除歧義技術(shù)來(lái)實(shí)現(xiàn)。

集成圖嵌入

圖嵌入是一種用于將圖中的節(jié)點(diǎn)、邊或整個(gè)子圖轉(zhuǎn)換為連續(xù)向量或低維表示的技術(shù)，機(jī)器學(xué)習(xí)算法可以更輕松地處理這些向量或低維表示。

圖嵌入在知識(shí)工程的上下文中特別有用，因?yàn)樗梢詭椭鷮⒅R(shí)圖譜中的結(jié)構(gòu)化信息轉(zhuǎn)換為可以更容易地與機(jī)器學(xué)習(xí)算法（尤其是神經(jīng)網(wǎng)絡(luò)）集成的格式。

使用圖神經(jīng)網(wǎng)絡(luò)或其他圖表示學(xué)習(xí)方法學(xué)習(xí)，并可用于豐富模型對(duì)實(shí)體及其關(guān)系的理解。

推理時(shí)查詢知識(shí)圖譜

當(dāng)模型遇到需要精確、結(jié)構(gòu)化知識(shí)的問(wèn)題或任務(wù)時(shí)，可以查詢知識(shí)圖譜獲取相關(guān)信息。這可以通過(guò)將自然語(yǔ)言查詢轉(zhuǎn)換為基于圖形的查詢（例如，使用SPARQL），然后使用檢索到的信息來(lái)回答問(wèn)題或執(zhí)行任務(wù)來(lái)完成。

知識(shí)圖譜引導(dǎo)生成

將大語(yǔ)言模型的生成能力與知識(shí)圖譜中的結(jié)構(gòu)化信息相結(jié)合，可以生成更準(zhǔn)確、更相關(guān)的文本。例如，在生成實(shí)體的摘要或描述時(shí)，模型可以對(duì)知識(shí)圖譜中的信息進(jìn)行優(yōu)先級(jí)排序，以確保事實(shí)的正確性。

混合模型

開(kāi)發(fā)包含基于圖和基于神經(jīng)網(wǎng)絡(luò)的組件的混合模型，可以利用這兩種方法的優(yōu)勢(shì)。例如，圖神經(jīng)網(wǎng)絡(luò)（GNN）可用于學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)的潛在表示，然后可以將其與大語(yǔ)言模型集成以執(zhí)行自然語(yǔ)言處理任務(wù)。

鼓勵(lì)可解釋性和可解釋性

開(kāi)發(fā)允許大語(yǔ)言模型基于知識(shí)圖譜為其推理和預(yù)測(cè)生成解釋的方法。這可以幫助用戶了解模型如何利用知識(shí)圖譜中的結(jié)構(gòu)化信息，并有助于調(diào)試和優(yōu)化模型。

結(jié)語(yǔ)

技術(shù)的浪潮總是洶涌而至，在新的技術(shù)革新來(lái)臨之際，我們更應(yīng)該客觀看待新舊技術(shù)的優(yōu)劣，而不是沖動(dòng)地去擁抱新技術(shù)，拋棄現(xiàn)有成熟技術(shù)。

對(duì)于知識(shí)圖譜來(lái)說(shuō)，大模型的出現(xiàn)并不是一個(gè)沖擊，恰恰是給了知識(shí)圖譜一個(gè)新的生長(zhǎng)空間。當(dāng)我們將大模型與自身優(yōu)勢(shì)的行業(yè)應(yīng)用去深度結(jié)合，形成數(shù)據(jù)和算法的持續(xù)迭代，必將看到更好的結(jié)果持續(xù)涌現(xiàn)。

來(lái)源：科技云報(bào)道

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

ChatGPT的勝利，宣告知識(shí)圖譜的消亡？

下一篇

ChatGPT的勝利，宣告知識(shí)圖譜的消亡？

下一篇

ChatGPT的勝利，宣告知識(shí)圖譜的消亡？