2020 WAIC明略科技吳信東深度解讀知識圖譜的自動構建

2020年7月11日,世界人工智能大會WAIC·開發(fā)者日:開發(fā)·開源·社區(qū)主題論壇召開,全球有影響力的圖靈獎得主、頂級技術專家和開發(fā)者代表云聚一堂,對當下人工智能前沿理論技術和開發(fā)實踐進行深度解讀。明略科技首席科學家、明略科學院院長吳信東受邀發(fā)表主題演講,分享知識圖譜自動構建的方法論和實踐,并宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發(fā)者和企業(yè)級用戶。

數(shù)據(jù)圖譜不是知識圖譜

吳信東認為,大多數(shù)情況下,我們所說的、所用到的圖譜并沒有后臺知識,只是數(shù)據(jù)圖譜,而不是知識圖譜。知識圖譜應該有三個組成部分,首先是概念,即圖譜的節(jié)點。概念跟概念之間是連接,是關系,即圖譜的邊。只有概念和關系還不夠,還需要背景知識解釋概念,和連接的語義。如果只有概念、關系,是數(shù)據(jù)圖譜,而不是具有背景知識的知識圖譜。

從數(shù)據(jù)圖譜到知識圖譜的構建,可分成三個階段。第一階段,人工階段。對當前問題充分理解,把概念、關系形成節(jié)點和邊,用計算機程序的方式進行連接、溝通。第二階段,眾包構建。當實體太多,關系類型非常復雜時,需要涉及到群體,形成分布式的開發(fā)環(huán)境進行集成。第三階段,自動構建。自動構建,始于美國的華盛頓大學,卡內(nèi)基梅隆大學,Google的一些早期項目,采取計算機輔助,做自動融合、自動容錯的檢測機制。

知識圖譜的構建,首先要有數(shù)據(jù)來源。數(shù)據(jù)類型可分成結(jié)構化數(shù)據(jù),例如,表格數(shù)據(jù),一個成型的數(shù)據(jù)庫,關系型數(shù)據(jù)庫,或者其他層次化的數(shù)據(jù);非結(jié)構化數(shù)據(jù),包括新聞網(wǎng)頁,手寫的字段,圖片,視頻,中間可能是根據(jù)需要、場景采集到的數(shù)據(jù)片段;半結(jié)構化數(shù)據(jù),例如,網(wǎng)絡文章,雖然不是完全結(jié)構化的,但一般而言都有標題、作者、摘要,分段落以及結(jié)束語,所以具備一定的形式,即半結(jié)構化數(shù)據(jù)。

知識圖譜的構建,要考慮到三種不同的數(shù)據(jù)類型。其中,非結(jié)構化數(shù)據(jù),由于語言、描述形式呈現(xiàn)了多樣性或靈活性,因此抽取實體、語義關系是知識圖譜自動構建面臨的挑戰(zhàn)。具體而言,信息抽取,需要判斷哪些信息的短語、動詞是和知識圖譜構建相關的。知識融合,需要把每個句子里面存儲的不同片段的信息,形成一個整體,所形成的描述形式用于其他的知識處理。

無論是從信息抽取做知識融合,還是做知識處理,最核心的三部分,一是實體涉及到的名詞,二是涉及到中間的關系,三是實體和關系之間,可能有同名,有共線(Co-references),如何沖突消解。

知識圖譜的構建方法

圖譜構建主要有三大挑戰(zhàn):第一,在構建中間可能做了一些信息搜索;第二,后臺的知識庫可能做了一些信息冗余;第三,隨著時間和空間的變化,信息要進行更新迭代。那么,如何構建知識圖譜?方法主要有四大類。

第一類是邏輯建模,用邏輯描述所要抽取的知識圖譜包含了哪些概念、關系和背景知識。目前,大多數(shù)知識圖譜都是邏輯+概率。邏輯,是名詞跟名詞的關系。當涉及到日常生活、社會經(jīng)濟系統(tǒng),這些名詞的關系不是確定的,所以要加上概率的描述方式。概率+邏輯,通常是用來描述知識圖譜的第一種技術手段。其中涉及到一些技術問題,如,邏輯變量、邏輯規(guī)則,當量非常大時,使用馬爾可夫邏輯網(wǎng)對問題進行簡化處理。對問題求解關注度比較高的一些描述形式,把馬爾可夫邏輯網(wǎng)介入到概念衍生過程中,達到高效的知識圖譜構建和利用。

第二類知識圖譜的構建方法是隱含空間,涉及隱含變量,即有哪些背景知識來解釋文本。文本包含的社會背景、人物關系、組織結(jié)構,沒有在文本中體現(xiàn),但是要進行了解、梳理。隱含空間分析有多種方法,第一種方法是距離模型,一個三元組,一個head,通過一個relation,推演將來tail究竟是什么。例如,我走到哪一個大樓,到了具體哪一層,中間可能涉及到隱含的變量。假設我今天的目標是要去訪問客戶,或者做一個項目答辯。根據(jù)當前的情況,背景的隱含空間,可以映射我的目標,要到什么地方去,這就涉及到背景知識。所以隱含變量和隱變量模型,核心都是有一些變量是無法看到的,文本沒有進行具體刻畫的隱含信息。這就涉及到神經(jīng)網(wǎng)絡經(jīng)常用到的張量模型,張量是全方位的,是三維空間的描述,用像機、二維模型刻畫,有些變量、特征不容易展現(xiàn)出來。由此引出矩陣分解,一個矩陣中間可能有一個隱含矩陣,從M到N,中間讓它變成N×K的矩陣的描述形式。所以,隱含變量帶來了很多的空間和機會,相對困難?,F(xiàn)在國內(nèi)用的比較多的是TransE翻譯模型,是從當前的一個變量,翻譯到一定程度。

第三類知識圖譜的構建方法是人機交互,通過人在回路,以計算機和人交互的方式,完成對信息的搜集、聚合、消解。核心是一個交互接口。人機交互的圖譜構建,基本上有三種不同的模式。第一種模式是通過設計一個計算機程序,讓計算機程序?qū)θ祟悓<疫M行提問,一旦把這些問題進行完整的回答,就把該問題涉及到的概念和關系建立模型,生成知識圖譜。人機交互的范式里有Structured Interactive Knowledge Transfer(SIKT),即結(jié)構化的交互知識牽引,通過計算機交互,把人腦中存在的關于問題的描述,形成知識圖譜。面向?qū)ο?把實體里面關于知識的描述、知識的牽引進行刻畫,形成Knowledge Object的表示方法,這是第二種模式。第三種模式,是明略科技近兩年所做的一種嘗試,把人類智能、人工智能、組織智能所涉及的概念、關系進行描述,通過人在回路進行問題的刻畫。這三種模式,都涉及人機交互,也涉及一些特定的行業(yè)知識。

第四類知識圖譜的構建方法是本體模型。本體模型的意思是,我們在讀一個文本的同時,后臺有一個詞典,或者是有一個知識庫,幫助我們理解當前的問題描述。國際上比較經(jīng)典、成功的是Cyc循環(huán)獲取方法,基本上有七個步驟,從問題領域的界定,到創(chuàng)建實例,來形成知識圖譜。Ontology Development七步法中間也涉及本體的半自動構建,利用一些專業(yè)詞典、敘詞表,缺點是在復用本體的概念和關系時,對當前的問題不一定能夠做到完全匹配。而自動構建則有基于語言規(guī)則的方法和基于機器學習的方法。基于語言的方法,涉及到一些語義的模式?;诮y(tǒng)計學的機器學習方法,涉及到數(shù)據(jù)的聚類,還有一些模式數(shù)據(jù)的挖掘。

圖譜的自動構建涉及兩個核心要素,第一,要有一個領域知識庫,第二,對數(shù)據(jù)和知識庫進行匹配時,需要自動糾錯、自主學習,因此強化學習和人機交互是關鍵。

HAO圖譜的核心技術和應用場景

明略科技的HAO圖譜,基于HAO智能框架。其中“HAO”,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理論框架為基礎,形成了從感知到認知,再到?jīng)Q策的三個能力階段的HAO技術體系,包括HAO感知、HAO數(shù)據(jù)一體機,HAO交互、HAO圖譜、HAO模型、HAO情報、HAO預測,HAO代理、HAO排序等系列基礎軟件模型、應用工具和解決方案。

在HAO智能技術環(huán)境中,實現(xiàn)從數(shù)據(jù)圖譜到HAO圖譜。數(shù)據(jù)圖譜在HAO交互技術環(huán)節(jié)完成。比如,演講現(xiàn)場,HAO交互技術可以實時采集發(fā)言者的語音數(shù)據(jù),然后HAO圖譜技術可在后臺實時生成圖譜,首先把聲音翻譯成實體和關系,然后再精簡、關聯(lián)。“HAO”圖譜是目前第一個從聲音直接生成圖譜的系統(tǒng)。

HAO圖譜有三項關鍵技術。第一,句子級的信息抽取,生成名詞和名詞之間的關系連接以后,要理解中間哪些語義內(nèi)容是句子級的,再從句子級,生成更高層次的內(nèi)容分析。

第二,篇章級的信息抽取。多個句子就形成一個整體描述,整體描述中涉及多個概念、關系,描述一個整體現(xiàn)象,即是篇章級的信息抽取。

第三,動態(tài)和靜態(tài)的知識表示。從不同的篇章中間做話題演化時,隨著社會、經(jīng)濟和當前討論熱點的變化,話題關注點可能發(fā)生遷移,因此話題目錄要做一些變化,當進行知識圖譜構建抽取事件時,要考慮隨著時間和空間的變化而變化,進行動態(tài)和靜態(tài)的知識圖譜的表示。

目前,HAO圖譜已在公共安全、數(shù)字城市、金融、工業(yè)、廣告營銷等多個場景中落地。

在輿情分析和個性化營銷場景中,基于知識圖譜,可以把用戶產(chǎn)生的評論,與品牌相結(jié)合,去看用戶的輿情走勢,然后將結(jié)果整合到BI系統(tǒng),為運營人員提供用戶需求洞察,同時,在此基礎之上進行千人千面的個性化廣告生成和智能商品推薦。

在智能導購場景中,在尊重和保護用戶隱私和數(shù)據(jù)安全的前提下,把銷售溝通話術,經(jīng)過語音轉(zhuǎn)成文本,進行話題分類,形成話題轉(zhuǎn)移的知識圖譜,計算出話題之間轉(zhuǎn)移的概率,幫助銷售人員復盤,分析流單的主要環(huán)節(jié),改善話題轉(zhuǎn)移和引導,提高成單率。

HAO圖譜技術模塊,依托明略科技新一代人工智能國家開放創(chuàng)新平臺,已于2020年7月11日正式對外開放Text2KG API,賦能更多開發(fā)者和企業(yè)級用戶,基于明略科技知識圖譜的底層技術,更高效地探索更多行業(yè)細分場景。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )