干貨丨大規(guī)模自動化知識圖譜構(gòu)建的七大基本原則

知識圖譜(Knowledge Graph, KG)本質(zhì)上是一種大規(guī)模語義網(wǎng)絡(luò),包含實體、概念及其之間的各類語義關(guān)系,目前已經(jīng)成為認知智能的基石,是發(fā)展人工智能的核心技術(shù),它讓機器語言認知、可解釋人工智能成為可能,能夠顯著增強機器學習的能力,將成為與數(shù)據(jù)驅(qū)動相并列的一種非常重要的解決問題的方式。

最近幾年,以知識圖譜為代表的智能化技術(shù)正在觸及越來越多領(lǐng)域,許多企業(yè)都已將人工智能升格為企業(yè)的核心戰(zhàn)略。目前在金融領(lǐng)域,知識圖譜等人工智能技術(shù)也正在賦能越來越多的業(yè)務(wù),推動金融更加智能化。

金融KG的挑戰(zhàn)與機遇

在金融知識圖譜構(gòu)建的早期探索中,有人認為只有股票、期貨、上市公司與金融密切相關(guān)。但是在實際應(yīng)用中,幾乎萬事萬物在某種意義下都與金融相關(guān),比如某地區(qū)突發(fā)一場龍卷風,可能影響農(nóng)作物產(chǎn)量,進而影響農(nóng)業(yè)機械的出貨量,最終影響某家生產(chǎn)農(nóng)用發(fā)動機的上市公司股價。

類似這樣的關(guān)聯(lián)分析,正是我們期望智能金融實現(xiàn)的,而這樣的深度關(guān)聯(lián)分析,顯然十分容易超出任何專家系統(tǒng)的預(yù)先設(shè)定的知識邊界。因此,某種意義上,知識是普遍關(guān)聯(lián)的,金融領(lǐng)域知識庫的構(gòu)建,也要面臨與通用知識庫相同的挑戰(zhàn)。

此外,需求多樣、規(guī)模巨大、要支撐的業(yè)務(wù)系統(tǒng)很龐雜、企業(yè)能夠投入的資源有限等問題,在金融知識圖譜的構(gòu)建中也帶來了一定的挑戰(zhàn),尤其在數(shù)據(jù)方面,一旦具體到某個特定金融場景,數(shù)據(jù)可能很稀疏,并且分布不均勻,質(zhì)量低下。

不過,在金融領(lǐng)域數(shù)據(jù)不足的場景,往往專家知識豐富,結(jié)構(gòu)化數(shù)據(jù)不多的場景,往往文本數(shù)據(jù)豐富,這些都是金融知識圖譜的機遇。再加上目前深度模型豐富,各種方法并存,互聯(lián)網(wǎng)上已經(jīng)存在一些高質(zhì)量圖譜可以充分利用,都為圖譜的構(gòu)建提供了有利條件。

金融KG的構(gòu)建需要大規(guī)模自動化嗎?

知識圖譜源于傳統(tǒng)知識工程,在上世紀七十年代,傳統(tǒng)知識工程主要依賴專家去描述某個領(lǐng)域的本體,通過人工的方式來完成知識的表達和獲取。很顯然,現(xiàn)今金融場景的數(shù)據(jù)規(guī)模非常大,需要發(fā)展數(shù)據(jù)驅(qū)動的、自下而上的自動化方法,來高效地實現(xiàn)圖譜構(gòu)建。

知識圖譜的構(gòu)建有三大關(guān)鍵要素:人——整個知識圖譜構(gòu)建的發(fā)起者、是數(shù)據(jù)的標注者,并且支持最終的驗證;模型——現(xiàn)在大量采用的知識圖譜構(gòu)建方法,主要是機器學習的模型;數(shù)據(jù)——模型使用的是有標注數(shù)據(jù)或者無標注數(shù)據(jù)。

大規(guī)模自動化知識圖譜的構(gòu)建同樣需要考慮到上述三要素,控制人力成本、實現(xiàn)大規(guī)模知識獲取,同時保證知識圖譜的質(zhì)量,構(gòu)建足夠普適、輕量、廉價的知識圖譜。根據(jù)目前學界的經(jīng)驗,可以參考以下一些基本原則。

端到端模型優(yōu)于流水線方案

所謂“端到端”,就是從原始數(shù)據(jù)輸入到任務(wù)結(jié)果輸出,整個訓(xùn)練和預(yù)測過程,都是在模型里完成的。流水線(pipeline)技術(shù)是指在程序執(zhí)行時多條指令重疊進行操作的一種準并行處理實現(xiàn)技術(shù),相對來說容易導(dǎo)致錯誤的傳播和積累,導(dǎo)致最后的準確率不佳。在準確率差不多的情況下,可以優(yōu)先考慮采用端到端的方案,降低特征工程的人工代價,避免錯誤傳播。

有海量數(shù)據(jù)時,無監(jiān)督方法更合適

無監(jiān)督方法和有監(jiān)督方法的選擇是有條件的,在有海量數(shù)據(jù)的情況下,無監(jiān)督方法是比較合適的。近年來行業(yè)中發(fā)展了大量的無監(jiān)督詞匯挖掘方法,尤其在實體識別方面,目前已有不錯的效果。融合多種統(tǒng)計特征是取得較好效果的關(guān)鍵,同時需要注意,特征比模型重要。

任何一個領(lǐng)域的智能化,往往都是從這個領(lǐng)域的詞匯知識挖掘開始的,金融領(lǐng)域也應(yīng)如此。這跟人的學習類似,人去了解一個新的領(lǐng)域,也是先學習這個領(lǐng)域的基本詞匯,了解詞匯的概念、上下位詞、同意詞、簡稱等。讓機器獲取詞匯知識,往往需要無監(jiān)督的方法,因為很多場景缺少標準數(shù)據(jù),但是往往有充足的文本,只要文本量足夠大,通過使用無監(jiān)督的辦法可以高效、準確地挖掘出該領(lǐng)域的詞匯。

充分利用行為數(shù)據(jù)

知識圖譜的構(gòu)建,除了從文本里挖,或者從已有的關(guān)系表格里轉(zhuǎn)換,還可以通過深挖用戶的行為數(shù)據(jù)來構(gòu)建。諸如電商、搜索等場景,有豐富的用戶行為數(shù)據(jù),這些搜索日志可以很好地幫助我們構(gòu)建詞匯之間的一些關(guān)系,比如搜索“Fintech”的人總是會點開金融科技相關(guān)的文檔,那么“Fintech”很有可能就是“金融科技”的同義詞。

很多企業(yè)內(nèi)部也有搜索平臺,對于知識圖譜的構(gòu)建同樣具有價值。通過充分挖掘搜索日志等用戶行為數(shù)據(jù),挖掘詞匯之間的關(guān)系,有助于知識圖譜的構(gòu)建。

統(tǒng)計模型需與符號知識結(jié)合

相比于單一的統(tǒng)計模型,統(tǒng)計模型與符號知識相結(jié)合會更加有效。金融領(lǐng)域有豐富的符號知識,例如專家規(guī)則等,這些知識可以幫助提升統(tǒng)計模型的效果。例如在給實體打標簽的時候,可以初步構(gòu)造出一些約束,舉個簡單的例子,如果xx是個人,他肯定不會是一本書;如果他是一名企業(yè)家,他肯定是個人物。這些約束的本質(zhì)是符號化的知識,充分利用先驗知識構(gòu)造各種約束,是有效提升模型效果的關(guān)鍵思路。

符號知識還可以用來構(gòu)造注意力機制?,F(xiàn)在注意力對于深度學習模型來說很重要,簡單地說就是打權(quán)重。比如在“她已經(jīng)用蘋果十年了”這句話中,當我們給“蘋果”這個詞打標簽,“移動電話”的標簽要比“水果”的標簽合適。利用符號知識去構(gòu)造深度模型里面的注意力機制,有助于做到真正的知識引導(dǎo),使得效果更好。

間接知識引導(dǎo)優(yōu)于直接數(shù)據(jù)驅(qū)動

深度學習模型本質(zhì)上是直接數(shù)據(jù)驅(qū)動,但在一些情況下,需要先從數(shù)據(jù)中去挖掘一些pattern,再把pattern融合到深度模型中,會取得更好的效果。有的人在做關(guān)系抽取的時候,會將其建模成關(guān)系分類,但是事實上可以從語料中挖掘主題詞增強輸出描述,使用主題模型挖掘關(guān)系標簽的相關(guān)主題詞,利用主題詞增強關(guān)系標簽描述,從而顯著提升關(guān)系抽取的準確率。

用圖模型增強可解釋性

圖模型很普適,有非常強的表達能力,并且可解釋、可控,便于調(diào)整。可解釋性決定了人工智能系統(tǒng)的決策結(jié)果能否被人類采信。比如在金融領(lǐng)域的智能投資決策,即便人工智能決策的準確超過90%,但是如果系統(tǒng)不能給出作出決策的理由,投資經(jīng)理或者用戶恐怕也是十分猶豫的。

專家知識庫可作為種子樣本

在數(shù)據(jù)樣本標注方面,如果既有專家構(gòu)建的知識體系,也有自動構(gòu)建的知識體系,利用專家構(gòu)建的小規(guī)模知識體系作為數(shù)據(jù)驅(qū)動的種子樣本,是有效降低人工標注的重要思路之一,可以降低模型構(gòu)建的代價。

此外,對于實際落地來說,復(fù)合架構(gòu)非常重要,比如統(tǒng)計+規(guī)則可以有效解決樣本分布不均勻給單一模型帶來的挑戰(zhàn);眾包化驗證不可或缺,因為總有一些知識正確與否的驗證是要交給人類自身的;在知識圖譜的更新方面,可以利用互聯(lián)網(wǎng)熱點來驅(qū)動圖譜更新,因為只有互聯(lián)網(wǎng)上的熱點實體,其事實才有可能改變,冷門實體(例如秦始皇這種歷史詞條)一般不會發(fā)生變化。

大數(shù)據(jù)時代的到來,使得自動化知識獲取成為可能。目前在學界,知識圖譜的大規(guī)模自動化構(gòu)建實際上已經(jīng)基本可行,傳統(tǒng)知識工程中的知識獲取瓶頸正在逐步被解決。隨著未來大規(guī)模自動化知識圖譜在金融領(lǐng)域逐漸落地,也必將進一步推動金融領(lǐng)域的智能化進程。

本文已標注來源和出處,版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-11-30
干貨丨大規(guī)模自動化知識圖譜構(gòu)建的七大基本原則
隨著未來大規(guī)模自動化知識圖譜在金融領(lǐng)域逐漸落地,也必將進一步推動金融領(lǐng)域的智能化進程。

長按掃碼 閱讀全文