本文轉(zhuǎn)載自2020年【AI中國(guó)】機(jī)器之心年度案例解讀——虎博科技賦能方正證券智能搜索案例。
虎博科技智能搜索引擎基于虎博科技MasterMind核心系統(tǒng)所打造,可利用自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)為券商等金融客戶搭建智能數(shù)據(jù)中臺(tái),對(duì)接和管理海量文本數(shù)據(jù)。對(duì)于數(shù)據(jù)孤島問(wèn)題,系統(tǒng)可基于多數(shù)據(jù)源智能適配、搜索意圖推薦、搜索功能快速構(gòu)建等優(yōu)勢(shì)功能協(xié)助企業(yè)構(gòu)建高效數(shù)據(jù)管道,挖掘數(shù)據(jù)價(jià)值及提高數(shù)據(jù)利用率。
移動(dòng)證券服務(wù)數(shù)據(jù)孤島亟待智能技術(shù)優(yōu)化用戶體驗(yàn)
對(duì)于證券行業(yè)來(lái)說(shuō),移動(dòng)應(yīng)用已成為行業(yè)中不可或缺的服務(wù)載體。伴隨移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,客戶的交互、開(kāi)戶、交易、理財(cái)購(gòu)買等行為由傳統(tǒng)的PC端轉(zhuǎn)向移動(dòng)App。在此趨勢(shì)下,券商普遍開(kāi)始重視并開(kāi)發(fā)的移動(dòng)應(yīng)用,并加大研發(fā)資金投入以優(yōu)化服務(wù)效能及應(yīng)用場(chǎng)景創(chuàng)新。然而,證券APP常有的交易、資訊、投研等各類內(nèi)容服務(wù)板塊往往由券商公司內(nèi)不同組織提供,極易出現(xiàn)歷史包袱、系統(tǒng)割裂、數(shù)據(jù)孤島等問(wèn)題。
以方正證券為例,其移動(dòng)應(yīng)用「小方App」經(jīng)過(guò)4年的功能迭代和累加,已為客戶提供交易行情、理財(cái)、投顧、資訊、消息、智能等數(shù)百項(xiàng)功能服務(wù)。然而,其股票信息、投顧信息、研報(bào)資訊等數(shù)據(jù)長(zhǎng)期沉淀于各個(gè)獨(dú)立業(yè)務(wù)板塊,形成數(shù)據(jù)孤島。用戶在進(jìn)行投研、產(chǎn)品決策等行為時(shí)需要頻繁切換板塊,無(wú)法高效順暢地獲取數(shù)據(jù)。由此,機(jī)構(gòu)亟需改進(jìn)優(yōu)化搜索功能,構(gòu)建可提供股票搜索、理財(cái)搜索、投顧搜索等綜合性智能搜索服務(wù)。
移動(dòng)證券智能應(yīng)用案例解析:以虎博科技為小方App搭建智能搜索服務(wù)為例
為解決方正證券的數(shù)據(jù)孤島問(wèn)題,虎博科技通過(guò)引入其虎博智能搜索引擎,結(jié)合深度學(xué)習(xí)、自然語(yǔ)言處理、知識(shí)圖譜等智能技術(shù)為小方App構(gòu)建了智能搜索功能。利用搜索框?yàn)橛脩籼峁└咝畔⒎?wù)。
在方案設(shè)計(jì)流程中,虎博科技針對(duì)智能搜索功能這一目標(biāo)服務(wù)功能的業(yè)務(wù)流程梳理出:用戶問(wèn)題、查詢分析、組內(nèi)搜索策略、組間搜索策略、輸出API、展示卡片六個(gè)環(huán)節(jié);其中所涉及的數(shù)據(jù)流程則包含:異構(gòu)數(shù)據(jù)轉(zhuǎn)換、離線索引構(gòu)建、組內(nèi)策略構(gòu)建、組間策略構(gòu)建四個(gè)環(huán)節(jié)。其中異構(gòu)數(shù)據(jù)轉(zhuǎn)換和離線索引構(gòu)建都屬于離線處理,虎博科技在數(shù)據(jù)處理管道上結(jié)合自身在NLP領(lǐng)域的審核積淀,提供了豐富的處理模型,從而提升搜索效果。
一、 核心設(shè)施 – 虎博智能搜索引擎
虎博智能搜索引擎基于虎博MasterMind核心系統(tǒng)所打造,可利用自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)為券商等金融客戶搭建智能數(shù)據(jù)中臺(tái),對(duì)接和管理海量文本數(shù)據(jù)。
對(duì)于本案例中客戶在高效數(shù)據(jù)處理上的需求,引擎可提供:
1.多數(shù)據(jù)源智能適配 – 包含內(nèi)外部財(cái)報(bào)、研報(bào)、公告、資訊、產(chǎn)品等數(shù)據(jù)在內(nèi),引擎可快速接入多種形式的數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)及文檔、表格、圖片、音頻等非結(jié)構(gòu)化數(shù)據(jù))。
2.搜索意圖推薦 – 引擎可基于豐富的NLP算法在索引構(gòu)建過(guò)程中對(duì)數(shù)據(jù)進(jìn)行深度知識(shí)挖掘分析,提供更快速的查詢檢索。
3.搜索功能快速構(gòu)建 – 引擎的搜索API模塊允許用戶通過(guò)簡(jiǎn)單的后臺(tái)配置快速構(gòu)建搜索服務(wù)功能,并配合NLP算法理解用戶檢索語(yǔ)義和意圖,支持口語(yǔ)化問(wèn)答交互。此外,搜索服務(wù)于可對(duì)接口進(jìn)行限流和鑒權(quán)實(shí)現(xiàn)安全性保障。
4.監(jiān)控 – 系統(tǒng)全流程監(jiān)控,幫助用戶快速定位問(wèn)題。
5.反饋日志 - 用戶反饋日志收集持續(xù)優(yōu)化搜索結(jié)果。
二、結(jié)合NLP與知識(shí)圖譜搭建數(shù)據(jù)處理管道,實(shí)現(xiàn)智能搜索
為構(gòu)建高效、精準(zhǔn)的搜索服務(wù),在數(shù)據(jù)流程中的離線處理部分,虎博科技基于自身在NLP領(lǐng)域的技術(shù)積累,通過(guò)意圖識(shí)別模型、深度學(xué)習(xí)語(yǔ)義模型以及行業(yè)知識(shí)圖譜和條件推理模型等技術(shù)優(yōu)勢(shì)構(gòu)建數(shù)據(jù)處理管道,從而提升搜索效果。
意圖識(shí)別模型–用于準(zhǔn)確識(shí)別用戶搜索意圖,進(jìn)而反饋更加符合需求的結(jié)果。模型可對(duì)query進(jìn)行分類,識(shí)別出SQL類query 和匹配類query。若識(shí)別結(jié)果為SQL類query,系統(tǒng)將直接采用文本分類模型進(jìn)后續(xù)處理;若識(shí)別結(jié)果為匹配類query則使用深度排序模型。
深度學(xué)習(xí)排序模型–用于查詢匹配類query與文檔的相關(guān)性。模型采用對(duì)離散特征做Embedding的方法,借鑒了FNN的思想,然后采用Wide&Deep模型同時(shí)訓(xùn)練一個(gè)Wide側(cè)的線性模型和一個(gè)Deep側(cè)的神經(jīng)網(wǎng)絡(luò),Wide部分提供記憶能力,關(guān)注用戶有過(guò)的歷史行為,Deep部分則提供泛化能力,關(guān)注一些沒(méi)有歷史行為的Item。
行業(yè)知識(shí)圖譜和條件推理模型–用于將自然語(yǔ)言問(wèn)題提煉為查詢條件在圖譜上推理檢索(NL2SQL)。具體地,采用了一種基于草圖的方法,其中草圖包含一個(gè)依賴圖,因此可以通過(guò)僅考慮其依賴的先前預(yù)測(cè)來(lái)進(jìn)行下一個(gè)預(yù)測(cè)。預(yù)測(cè)列時(shí)采用sigmoid函數(shù)來(lái)計(jì)算每個(gè)列出現(xiàn)的概率,并采用列注意力來(lái)提高預(yù)測(cè)能力,并使用序列到序列的進(jìn)行預(yù)測(cè)取值,從自然語(yǔ)言中提取查詢條件。
此外,針對(duì)小方App所提供的證券信息、理財(cái)?shù)葍?nèi)容服務(wù),虎博科技基于大量的證券方面的研報(bào)、財(cái)報(bào),在通用的語(yǔ)言模型(例如bert、albert)上,采用持續(xù)學(xué)習(xí)的方法訓(xùn)練了行業(yè)語(yǔ)言模型,全面的運(yùn)用于后續(xù)的實(shí)體識(shí)別、關(guān)系抽取、情感分析模型等。而對(duì)于部分英文研究材料,則基于大量的證券雙語(yǔ)平行語(yǔ)料訓(xùn)練的翻譯系統(tǒng),滿足了翻譯需求,并通過(guò)大量的證券語(yǔ)料以及標(biāo)注,結(jié)合實(shí)體識(shí)別和關(guān)系抽取輔助,構(gòu)建完善的證券垂直領(lǐng)域知識(shí)圖譜,為下游的檢索任務(wù)提供支持。
三、應(yīng)用效果
引入虎博智能搜索引擎后,方正證券旗下小方App信息服務(wù)效率至少提升50%。通過(guò)將原來(lái)各個(gè)二級(jí)頁(yè)面的搜索框,以及不同的功能整合成為首頁(yè)搜索框,形成統(tǒng)一的搜索入口,實(shí)現(xiàn)「股票」「理財(cái)」「投顧」「資訊」「發(fā)現(xiàn)」等全場(chǎng)景信息的一站式服務(wù)。
理財(cái)產(chǎn)品智能搜索可基于虎博科技針對(duì)證券行業(yè)的自然語(yǔ)言理解模型及知識(shí)圖譜,對(duì)產(chǎn)品進(jìn)行多屬性智能關(guān)聯(lián),連接用戶和產(chǎn)品,提升產(chǎn)品的轉(zhuǎn)化率;研報(bào)資訊精準(zhǔn)搜索可對(duì)于研報(bào)、資訊、公告以及其他非結(jié)構(gòu)化數(shù)據(jù)庫(kù)中內(nèi)容提供深度語(yǔ)義搜索,快速提供高價(jià)值信息;投顧信息搜索則通過(guò)綜合展示平臺(tái),讓用戶能夠方便的聯(lián)系投顧、認(rèn)知投顧、簽約投顧,促進(jìn)業(yè)務(wù)變現(xiàn),且縮短了用戶查找信息的路徑。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )