亚洲综合网在线观看,高清一级无码在线观看

知識圖譜（Knowledge Graph, KG）本質上是一種大規(guī)模語義網(wǎng)絡，包含實體、概念及其之間的各類語義關系，目前已經(jīng)成為認知智能的基石，是發(fā)展人工智能的核心技術，它讓機器語言認知、可解釋人工智能成為可能，能夠顯著增強機器學習的能力，將成為與數(shù)據(jù)驅動相并列的一種非常重要的解決問題的方式。

最近幾年，以知識圖譜為代表的智能化技術正在觸及越來越多領域，許多企業(yè)都已將人工智能升格為企業(yè)的核心戰(zhàn)略。目前在金融領域，知識圖譜等人工智能技術也正在賦能越來越多的業(yè)務，推動金融更加智能化。

金融KG的挑戰(zhàn)與機遇

在金融知識圖譜構建的早期探索中，有人認為只有股票、期貨、上市公司與金融密切相關。但是在實際應用中，幾乎萬事萬物在某種意義下都與金融相關，比如某地區(qū)突發(fā)一場龍卷風，可能影響農(nóng)作物產(chǎn)量，進而影響農(nóng)業(yè)機械的出貨量，最終影響某家生產(chǎn)農(nóng)用發(fā)動機的上市公司股價。

類似這樣的關聯(lián)分析，正是我們期望智能金融實現(xiàn)的，而這樣的深度關聯(lián)分析，顯然十分容易超出任何專家系統(tǒng)的預先設定的知識邊界。因此，某種意義上，知識是普遍關聯(lián)的，金融領域知識庫的構建，也要面臨與通用知識庫相同的挑戰(zhàn)。

此外，需求多樣、規(guī)模巨大、要支撐的業(yè)務系統(tǒng)很龐雜、企業(yè)能夠投入的資源有限等問題，在金融知識圖譜的構建中也帶來了一定的挑戰(zhàn)，尤其在數(shù)據(jù)方面，一旦具體到某個特定金融場景，數(shù)據(jù)可能很稀疏，并且分布不均勻，質量低下。

不過，在金融領域數(shù)據(jù)不足的場景，往往專家知識豐富，結構化數(shù)據(jù)不多的場景，往往文本數(shù)據(jù)豐富，這些都是金融知識圖譜的機遇。再加上目前深度模型豐富，各種方法并存，互聯(lián)網(wǎng)上已經(jīng)存在一些高質量圖譜可以充分利用，都為圖譜的構建提供了有利條件。

金融KG的構建需要大規(guī)模自動化嗎？

知識圖譜源于傳統(tǒng)知識工程，在上世紀七十年代，傳統(tǒng)知識工程主要依賴專家去描述某個領域的本體，通過人工的方式來完成知識的表達和獲取。很顯然，現(xiàn)今金融場景的數(shù)據(jù)規(guī)模非常大，需要發(fā)展數(shù)據(jù)驅動的、自下而上的自動化方法，來高效地實現(xiàn)圖譜構建。

知識圖譜的構建有三大關鍵要素：人——整個知識圖譜構建的發(fā)起者、是數(shù)據(jù)的標注者，并且支持最終的驗證；模型——現(xiàn)在大量采用的知識圖譜構建方法，主要是機器學習的模型；數(shù)據(jù)——模型使用的是有標注數(shù)據(jù)或者無標注數(shù)據(jù)。

大規(guī)模自動化知識圖譜的構建同樣需要考慮到上述三要素，控制人力成本、實現(xiàn)大規(guī)模知識獲取，同時保證知識圖譜的質量，構建足夠普適、輕量、廉價的知識圖譜。根據(jù)目前學界的經(jīng)驗，可以參考以下一些基本原則。

端到端模型優(yōu)于流水線方案

所謂“端到端”，就是從原始數(shù)據(jù)輸入到任務結果輸出，整個訓練和預測過程，都是在模型里完成的。流水線（pipeline）技術是指在程序執(zhí)行時多條指令重疊進行操作的一種準并行處理實現(xiàn)技術，相對來說容易導致錯誤的傳播和積累，導致最后的準確率不佳。在準確率差不多的情況下，可以優(yōu)先考慮采用端到端的方案，降低特征工程的人工代價，避免錯誤傳播。

有海量數(shù)據(jù)時，無監(jiān)督方法更合適

無監(jiān)督方法和有監(jiān)督方法的選擇是有條件的，在有海量數(shù)據(jù)的情況下，無監(jiān)督方法是比較合適的。近年來行業(yè)中發(fā)展了大量的無監(jiān)督詞匯挖掘方法，尤其在實體識別方面，目前已有不錯的效果。融合多種統(tǒng)計特征是取得較好效果的關鍵，同時需要注意，特征比模型重要。

任何一個領域的智能化，往往都是從這個領域的詞匯知識挖掘開始的，金融領域也應如此。這跟人的學習類似，人去了解一個新的領域，也是先學習這個領域的基本詞匯，了解詞匯的概念、上下位詞、同意詞、簡稱等。讓機器獲取詞匯知識，往往需要無監(jiān)督的方法，因為很多場景缺少標準數(shù)據(jù)，但是往往有充足的文本，只要文本量足夠大，通過使用無監(jiān)督的辦法可以高效、準確地挖掘出該領域的詞匯。

充分利用行為數(shù)據(jù)

知識圖譜的構建，除了從文本里挖，或者從已有的關系表格里轉換，還可以通過深挖用戶的行為數(shù)據(jù)來構建。諸如電商、搜索等場景，有豐富的用戶行為數(shù)據(jù)，這些搜索日志可以很好地幫助我們構建詞匯之間的一些關系，比如搜索“Fintech”的人總是會點開金融科技相關的文檔，那么“Fintech”很有可能就是“金融科技”的同義詞。

很多企業(yè)內(nèi)部也有搜索平臺，對于知識圖譜的構建同樣具有價值。通過充分挖掘搜索日志等用戶行為數(shù)據(jù)，挖掘詞匯之間的關系，有助于知識圖譜的構建。

統(tǒng)計模型需與符號知識結合

相比于單一的統(tǒng)計模型，統(tǒng)計模型與符號知識相結合會更加有效。金融領域有豐富的符號知識，例如專家規(guī)則等，這些知識可以幫助提升統(tǒng)計模型的效果。例如在給實體打標簽的時候，可以初步構造出一些約束，舉個簡單的例子，如果xx是個人，他肯定不會是一本書；如果他是一名企業(yè)家，他肯定是個人物。這些約束的本質是符號化的知識，充分利用先驗知識構造各種約束，是有效提升模型效果的關鍵思路。

符號知識還可以用來構造注意力機制?，F(xiàn)在注意力對于深度學習模型來說很重要，簡單地說就是打權重。比如在“她已經(jīng)用蘋果十年了”這句話中，當我們給“蘋果”這個詞打標簽，“移動電話”的標簽要比“水果”的標簽合適。利用符號知識去構造深度模型里面的注意力機制，有助于做到真正的知識引導，使得效果更好。

間接知識引導優(yōu)于直接數(shù)據(jù)驅動

深度學習模型本質上是直接數(shù)據(jù)驅動，但在一些情況下，需要先從數(shù)據(jù)中去挖掘一些pattern，再把pattern融合到深度模型中，會取得更好的效果。有的人在做關系抽取的時候，會將其建模成關系分類，但是事實上可以從語料中挖掘主題詞增強輸出描述，使用主題模型挖掘關系標簽的相關主題詞，利用主題詞增強關系標簽描述，從而顯著提升關系抽取的準確率。

用圖模型增強可解釋性

圖模型很普適，有非常強的表達能力，并且可解釋、可控，便于調整?？山忉屝詻Q定了人工智能系統(tǒng)的決策結果能否被人類采信。比如在金融領域的智能投資決策，即便人工智能決策的準確超過90%，但是如果系統(tǒng)不能給出作出決策的理由，投資經(jīng)理或者用戶恐怕也是十分猶豫的。

專家知識庫可作為種子樣本

在數(shù)據(jù)樣本標注方面，如果既有專家構建的知識體系，也有自動構建的知識體系，利用專家構建的小規(guī)模知識體系作為數(shù)據(jù)驅動的種子樣本，是有效降低人工標注的重要思路之一，可以降低模型構建的代價。

此外，對于實際落地來說，復合架構非常重要，比如統(tǒng)計+規(guī)則可以有效解決樣本分布不均勻給單一模型帶來的挑戰(zhàn)；眾包化驗證不可或缺，因為總有一些知識正確與否的驗證是要交給人類自身的；在知識圖譜的更新方面，可以利用互聯(lián)網(wǎng)熱點來驅動圖譜更新，因為只有互聯(lián)網(wǎng)上的熱點實體，其事實才有可能改變，冷門實體（例如秦始皇這種歷史詞條）一般不會發(fā)生變化。

大數(shù)據(jù)時代的到來，使得自動化知識獲取成為可能。目前在學界，知識圖譜的大規(guī)模自動化構建實際上已經(jīng)基本可行，傳統(tǒng)知識工程中的知識獲取瓶頸正在逐步被解決。隨著未來大規(guī)模自動化知識圖譜在金融領域逐漸落地，也必將進一步推動金融領域的智能化進程。

本文已標注來源和出處，版權歸原作者所有，如有侵權，請聯(lián)系我們。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

干貨丨大規(guī)模自動化知識圖譜構建的七大基本原則

下一篇