虎博科技智能搜索:以NLP與行業(yè)知識圖譜構建數據處理管道,打破數據孤島

本文轉載自2020年【AI中國】機器之心年度案例解讀——虎博科技賦能方正證券智能搜索案例。

虎博科技智能搜索引擎基于虎博科技MasterMind核心系統(tǒng)所打造,可利用自然語言處理、知識圖譜等技術為券商等金融客戶搭建智能數據中臺,對接和管理海量文本數據。對于數據孤島問題,系統(tǒng)可基于多數據源智能適配、搜索意圖推薦、搜索功能快速構建等優(yōu)勢功能協(xié)助企業(yè)構建高效數據管道,挖掘數據價值及提高數據利用率。

移動證券服務數據孤島亟待智能技術優(yōu)化用戶體驗

對于證券行業(yè)來說,移動應用已成為行業(yè)中不可或缺的服務載體。伴隨移動互聯網的高速發(fā)展,客戶的交互、開戶、交易、理財購買等行為由傳統(tǒng)的PC端轉向移動App。在此趨勢下,券商普遍開始重視并開發(fā)的移動應用,并加大研發(fā)資金投入以優(yōu)化服務效能及應用場景創(chuàng)新。然而,證券APP常有的交易、資訊、投研等各類內容服務板塊往往由券商公司內不同組織提供,極易出現歷史包袱、系統(tǒng)割裂、數據孤島等問題。

以方正證券為例,其移動應用「小方App」經過4年的功能迭代和累加,已為客戶提供交易行情、理財、投顧、資訊、消息、智能等數百項功能服務。然而,其股票信息、投顧信息、研報資訊等數據長期沉淀于各個獨立業(yè)務板塊,形成數據孤島。用戶在進行投研、產品決策等行為時需要頻繁切換板塊,無法高效順暢地獲取數據。由此,機構亟需改進優(yōu)化搜索功能,構建可提供股票搜索、理財搜索、投顧搜索等綜合性智能搜索服務。

移動證券智能應用案例解析:以虎博科技為小方App搭建智能搜索服務為例

為解決方正證券的數據孤島問題,虎博科技通過引入其虎博智能搜索引擎,結合深度學習、自然語言處理、知識圖譜等智能技術為小方App構建了智能搜索功能。利用搜索框為用戶提供高效信息服務。

在方案設計流程中,虎博科技針對智能搜索功能這一目標服務功能的業(yè)務流程梳理出:用戶問題、查詢分析、組內搜索策略、組間搜索策略、輸出API、展示卡片六個環(huán)節(jié);其中所涉及的數據流程則包含:異構數據轉換、離線索引構建、組內策略構建、組間策略構建四個環(huán)節(jié)。其中異構數據轉換和離線索引構建都屬于離線處理,虎博科技在數據處理管道上結合自身在NLP領域的審核積淀,提供了豐富的處理模型,從而提升搜索效果。

一、 核心設施 – 虎博智能搜索引擎

虎博智能搜索引擎基于虎博MasterMind核心系統(tǒng)所打造,可利用自然語言處理、知識圖譜等技術為券商等金融客戶搭建智能數據中臺,對接和管理海量文本數據。

虎博科技智能搜索:以NLP與行業(yè)知識圖譜構建數據處理管道,打破數據孤島

對于本案例中客戶在高效數據處理上的需求,引擎可提供:

1.多數據源智能適配 – 包含內外部財報、研報、公告、資訊、產品等數據在內,引擎可快速接入多種形式的數據(結構化數據及文檔、表格、圖片、音頻等非結構化數據)。

2.搜索意圖推薦 – 引擎可基于豐富的NLP算法在索引構建過程中對數據進行深度知識挖掘分析,提供更快速的查詢檢索。

3.搜索功能快速構建 – 引擎的搜索API模塊允許用戶通過簡單的后臺配置快速構建搜索服務功能,并配合NLP算法理解用戶檢索語義和意圖,支持口語化問答交互。此外,搜索服務于可對接口進行限流和鑒權實現安全性保障。

4.監(jiān)控 – 系統(tǒng)全流程監(jiān)控,幫助用戶快速定位問題。

5.反饋日志 - 用戶反饋日志收集持續(xù)優(yōu)化搜索結果。

二、結合NLP與知識圖譜搭建數據處理管道,實現智能搜索

為構建高效、精準的搜索服務,在數據流程中的離線處理部分,虎博科技基于自身在NLP領域的技術積累,通過意圖識別模型、深度學習語義模型以及行業(yè)知識圖譜和條件推理模型等技術優(yōu)勢構建數據處理管道,從而提升搜索效果。

意圖識別模型–用于準確識別用戶搜索意圖,進而反饋更加符合需求的結果。模型可對query進行分類,識別出SQL類query 和匹配類query。若識別結果為SQL類query,系統(tǒng)將直接采用文本分類模型進后續(xù)處理;若識別結果為匹配類query則使用深度排序模型。

深度學習排序模型–用于查詢匹配類query與文檔的相關性。模型采用對離散特征做Embedding的方法,借鑒了FNN的思想,然后采用Wide&Deep模型同時訓練一個Wide側的線性模型和一個Deep側的神經網絡,Wide部分提供記憶能力,關注用戶有過的歷史行為,Deep部分則提供泛化能力,關注一些沒有歷史行為的Item。

行業(yè)知識圖譜和條件推理模型–用于將自然語言問題提煉為查詢條件在圖譜上推理檢索(NL2SQL)。具體地,采用了一種基于草圖的方法,其中草圖包含一個依賴圖,因此可以通過僅考慮其依賴的先前預測來進行下一個預測。預測列時采用sigmoid函數來計算每個列出現的概率,并采用列注意力來提高預測能力,并使用序列到序列的進行預測取值,從自然語言中提取查詢條件。

此外,針對小方App所提供的證券信息、理財等內容服務,虎博科技基于大量的證券方面的研報、財報,在通用的語言模型(例如bert、albert)上,采用持續(xù)學習的方法訓練了行業(yè)語言模型,全面的運用于后續(xù)的實體識別、關系抽取、情感分析模型等。而對于部分英文研究材料,則基于大量的證券雙語平行語料訓練的翻譯系統(tǒng),滿足了翻譯需求,并通過大量的證券語料以及標注,結合實體識別和關系抽取輔助,構建完善的證券垂直領域知識圖譜,為下游的檢索任務提供支持。

三、應用效果

引入虎博智能搜索引擎后,方正證券旗下小方App信息服務效率至少提升50%。通過將原來各個二級頁面的搜索框,以及不同的功能整合成為首頁搜索框,形成統(tǒng)一的搜索入口,實現「股票」「理財」「投顧」「資訊」「發(fā)現」等全場景信息的一站式服務。

理財產品智能搜索可基于虎博科技針對證券行業(yè)的自然語言理解模型及知識圖譜,對產品進行多屬性智能關聯,連接用戶和產品,提升產品的轉化率;研報資訊精準搜索可對于研報、資訊、公告以及其他非結構化數據庫中內容提供深度語義搜索,快速提供高價值信息;投顧信息搜索則通過綜合展示平臺,讓用戶能夠方便的聯系投顧、認知投顧、簽約投顧,促進業(yè)務變現,且縮短了用戶查找信息的路徑。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )