來自微軟亞洲,出走海豚瀏覽器,核心團(tuán)隊二次創(chuàng)業(yè)阿博茨科技

在金融行業(yè),只有15%的知識是整理好的,85%的知識隱藏在公告、研報、圖片、郵件中。“金融民工”在日常工作中需要花費(fèi)大量時間找數(shù)據(jù)、摳數(shù)據(jù)、填數(shù)據(jù)和畫圖表,做這些基礎(chǔ)性的重復(fù)工作,不但耗時,而且出錯率高,還將導(dǎo)致企業(yè)的人力成本上升。

現(xiàn)實中,大部分企業(yè)還停留在將數(shù)據(jù)數(shù)字化的初始階段,缺少挖掘數(shù)據(jù)、可供精細(xì)化運(yùn)營和決策的工具,加上互聯(lián)網(wǎng)企業(yè)的競爭與監(jiān)管層的壓力,讓企業(yè)處于“內(nèi)憂外患”的窘境。

得益于云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等信息技術(shù)的快速發(fā)展,數(shù)據(jù)處理技術(shù)近年來在基礎(chǔ)理論、算法模型、創(chuàng)新應(yīng)用、軟件支持等方面不斷取得突破。億歐金融專訪北京阿博茨科技有限公司聯(lián)合創(chuàng)始人兼首席產(chǎn)品官余宙,作為金融業(yè)的“變革者”,阿博茨是如何利用技術(shù)解決金融行業(yè)的痛點呢?

Al賦能,改進(jìn)金融數(shù)據(jù)處理流程

阿博茨科技,英文名稱為“Al、Big Data、Cloud”(ABC),也就是人工智能、大數(shù)據(jù)和云服務(wù),是一家Al賦能金融業(yè)的科技公司。致力于使用AI技術(shù)改進(jìn)金融數(shù)據(jù)的產(chǎn)生、提取、分析、沉淀以及呈現(xiàn),基于自然語言處理、機(jī)器視覺技術(shù)和知識圖譜三項核心技術(shù), 目前已擁有覆蓋數(shù)據(jù)生產(chǎn)和流轉(zhuǎn)、數(shù)據(jù)呈現(xiàn)和分析與決策支持全業(yè)務(wù)鏈條的AI產(chǎn)品矩陣。

余宙告訴億歐金融,區(qū)別于替代別人實施決策的“雇傭兵”模式,阿博茨更像是“軍火商”模式,為企業(yè)和專業(yè)人員提供可以適應(yīng)各種環(huán)境的“武器”,起到輔助決策的作用。

那么,阿博茨如何通過自身的金融大腦,利用Al進(jìn)行數(shù)據(jù)的處理,做好一個“軍火商”呢?

AI的作用,在整個數(shù)據(jù)處理過程中,主要體現(xiàn)在以下三分層次:

第一層是認(rèn)知引擎層。從無到有,無論是人還是機(jī)器,都需要一個學(xué)習(xí)過程。

對于一些分析師,需要在長篇幅的研究報告里尋找特定數(shù)據(jù),僅翻看理解專業(yè)內(nèi)容這一過程,就需要耗費(fèi)大量的時間,還不包括分析師因為疲勞而造成的低效和錯誤。

那么對于機(jī)器的話,是如何實現(xiàn)人類數(shù)據(jù)查詢這個環(huán)節(jié)呢?機(jī)器首先要閱讀大量的報告,不斷地學(xué)習(xí),然后才能把這些數(shù)據(jù)找到,認(rèn)知層就是把所有非結(jié)構(gòu)化的數(shù)據(jù)解析出來。機(jī)器相當(dāng)于在做填空題,知道不同數(shù)據(jù)在什么位置。

第二層是感知層。這是一個從有到精的過程,舉個例子,認(rèn)知層讓機(jī)器知道水是無色、無味的液體,而感知層讓機(jī)器知道水可以解渴,在口渴時會想到水。

在解析一張財務(wù)報表中,比如說里面出現(xiàn)了1.98,數(shù)據(jù)中間是一個“.”,這到底是屬于分隔符,還屬于金融單位呢?都是要結(jié)合上下文,并且具備專業(yè)的金融知識,才能把這些數(shù)據(jù)整理得更好,這就是對數(shù)據(jù)的理解,并不容易。

對于阿博茨這樣的初創(chuàng)公司,余宙表示,AI的技術(shù)必須專注于非常垂直、非常細(xì)分的領(lǐng)域,才有可能做好。

第三層是可視化。這是一個從精到美的過程,當(dāng)機(jī)器找到信息,讀懂信息之后,如何把這些信息通過一套能夠繪圖的引擎進(jìn)行加工,用更美觀的方式呈現(xiàn)給分析師,也是不可或缺的重要一步。

對于一個剛?cè)腴T的新手分析師,可能對于手中的數(shù)據(jù)都不知道是什么含義,生成圖表又談何容易?

而阿博茨目前的可視化引擎經(jīng)過反復(fù)的文本訓(xùn)練,已經(jīng)學(xué)習(xí)并儲存了超過3千萬份金融的文檔和報告,閱讀了超過10億張的金融圖片和信息,幾乎已經(jīng)涵蓋了金融數(shù)據(jù)的所有類型。

量的積累,帶來的是質(zhì)的改變,當(dāng)分析師丟進(jìn)去一些數(shù)據(jù)樣本后,引擎可以迅速反應(yīng),輸出標(biāo)準(zhǔn)化格式的表格、圖紙。

三大核心技術(shù),夯實金融領(lǐng)域?qū)<业匚?/p>

既作為阿博茨的核心技術(shù),同時也是人工智能關(guān)注的三大信息類型(語音、視覺、語言)之一,自然語言文本是典型的無結(jié)構(gòu)數(shù)據(jù),由語言符號(如漢字)序列構(gòu)成,作為人類使用的最龐雜的符號系統(tǒng),其理解一般被認(rèn)為是最難的一項。

數(shù)據(jù)來源:清華大學(xué)NLP實驗室劉之遠(yuǎn)團(tuán)隊

阿博茨通過三步,理解文檔內(nèi)容以及自然語言互動:

1、解析非結(jié)構(gòu)化文本,提取領(lǐng)域知識,分析出結(jié)構(gòu)化信息,相當(dāng)于上圖中“Part of speech”與“Named entity recognition”這兩個過程;

2、匯聚多數(shù)據(jù)源非結(jié)構(gòu)化信息,理解關(guān)聯(lián)關(guān)系,進(jìn)行結(jié)構(gòu)化分,相當(dāng)于上圖中“Co-reference”與“Basic dependencies”這兩個過程;

3、理解客戶自然語言輸入,識別用戶意圖,轉(zhuǎn)換為機(jī)器搜索指令;

以上市公司的一份普通增發(fā)公告為例,通常有三四百頁內(nèi)容,要實現(xiàn)對文本的完整理解,需要建立更完備的語義結(jié)構(gòu)表示空間,這種更完備的語義表示經(jīng)常成為上述NLP任務(wù)進(jìn)行結(jié)構(gòu)預(yù)測的依據(jù)。

阿博茨的另一項核心技術(shù)是計算機(jī)視覺,是人工智能關(guān)注的三大信息類型之二。不同于人臉識別技術(shù),自20世紀(jì)60年代開始研究,到現(xiàn)在其技術(shù)成熟度已經(jīng)達(dá)到較高的水平;文本的形式具有多樣性,內(nèi)容具有天然的復(fù)雜性。

余宙也表示,專業(yè)類型文檔,很難進(jìn)行信息的識別和提取,工具化是非常重要的能力

在文字識別技術(shù)(OCR)的基礎(chǔ)上,阿博茨更進(jìn)一步,不僅可以從紙質(zhì)文件、PDF、圖片中識別圖表,直接生成Excel文檔,還可以通過理解圖表的坐標(biāo)和數(shù)值關(guān)聯(lián)關(guān)系,重建Excel公式、重新繪制可編輯的圖表。

在具備了自然語言理解和機(jī)器視覺兩項核心技術(shù)后,阿博茨利用知識圖譜對數(shù)據(jù)進(jìn)行存儲,將行業(yè)經(jīng)驗和知識沉淀,構(gòu)建領(lǐng)域知識大腦。

核心技術(shù)的實現(xiàn),背后是阿博茨強(qiáng)大的技術(shù)團(tuán)隊作支撐。

8 位高管中5 位曾在微軟亞洲研究院從事操作系統(tǒng)底層研發(fā)工作,公司技術(shù)人員占比80%。創(chuàng)始人兼CEO楊永智在2010年創(chuàng)立基于安卓移動端的海豚瀏覽器,在全球成功俘獲2億多用戶,2014年被搜狐暢游并購后良性退出。

卓越的技術(shù)能力,讓阿博茨一舉囊獲2019年全球文字識別(OCR)領(lǐng)域最頂級賽事——國際文檔分析與識別競賽(ICDAR)多項第一,并榮獲2019年五道口金融學(xué)院主辦的“全球金融科技創(chuàng)業(yè)大賽10強(qiáng)”榮譽(yù)。截至目前,阿博茨擁有20多項全球技術(shù)專利,核心AI技術(shù)已列入中美禁運(yùn)清單。

 技術(shù)能力的最終體現(xiàn),便是產(chǎn)品。數(shù)據(jù)處理系統(tǒng)的模塊化,使得阿博茨擁有較強(qiáng)的普適性,可以隨意進(jìn)行拼裝,適應(yīng)不同的環(huán)境;并且可以快速復(fù)制,應(yīng)用到不同的場景中去。

截至目前,阿博茨在金融領(lǐng)域成為服務(wù)專家的基礎(chǔ)上,觸角已經(jīng)在不斷延伸。大資管領(lǐng)域的券商、基金、資管,泛金融領(lǐng)域的銀行、保險、交易所,以及大數(shù)據(jù)領(lǐng)域的酒店集團(tuán)、地產(chǎn)、電力、垂直電商都是阿博茨的服務(wù)客戶。

生態(tài)閉環(huán),助力阿博茨持續(xù)拓展

在拿下港交所的過程中,阿博茨綜合運(yùn)用了自身的技術(shù)、產(chǎn)品、銷售優(yōu)勢,形成生態(tài)閉環(huán)。

在港交所全球招標(biāo),征集數(shù)據(jù)處理服務(wù)商的這場競賽中,不乏像微軟、Google、IBM這樣實力強(qiáng)勁的國際選手參與其中。但他們大而不精,只做通用能力,針對具體的金融文檔,卻無從下手,是由下面具體的供應(yīng)商來完成;而阿博茨已經(jīng)過大量的訓(xùn)練和學(xué)習(xí),能夠從容應(yīng)對和識別各種不同類型的文檔。

在具體的合作階段,余宙認(rèn)為,“最差的生意就是只做IT的生意,不能服務(wù)業(yè)務(wù)部門,因為服務(wù)客戶賺的更多。”

所以阿博茨選擇與港交所的技術(shù)部門——技術(shù)創(chuàng)新中心進(jìn)行前期的對接,最終的服務(wù)對象是港交所的業(yè)務(wù)部門——清算與投資代理人服務(wù)部門。

在具體的服務(wù)效果層面,在提取公告、處理文本信息的整個過程中,阿博茨可以極大的提高效率,降低80%以上的人工,決策時間從3-5天可以降低到2小時。

標(biāo)桿式案例,也對上述生態(tài)閉環(huán)產(chǎn)生積極的正向作用。

未來,阿博茨將繼續(xù)進(jìn)行市場拓展,形成行業(yè)解決方案,并加大人才補(bǔ)充和研發(fā)投入。

在融資方面,自2015年成立至今,阿博茨已獲得天使輪、A輪、B輪合計5億元的融資,投資方包括源碼資本、啟明創(chuàng)投、SIG海納亞洲等知名投資基金,技術(shù)與產(chǎn)品得到資本的青睞。億歐金融通過觀察發(fā)現(xiàn),阿博茨的歷次融資平均間隔時間一年左右。

君盛投資合伙人兼副總經(jīng)理李昊認(rèn)為,國內(nèi)企業(yè)的精細(xì)化運(yùn)作一定是整體的趨勢。而阿博茨用科技賦能B端,與金融業(yè)深度耦合,沖著解決企業(yè)數(shù)據(jù)處理的剛需問題,使得“數(shù)據(jù)化、專業(yè)化和國產(chǎn)化”成為自身的標(biāo)簽。

瑞·達(dá)利歐在《原則》一書中表示,人應(yīng)該成為機(jī)器的一部分而不是機(jī)器。隨著科技的發(fā)展,人工智能技術(shù)的迭代,人類越來越多的重復(fù)性工作會被機(jī)器人替代,而作為金融業(yè)的“變革者”阿博茨,所做的也僅僅是一個開始。

編輯:梁杰民

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

1970-01-01
來自微軟亞洲,出走海豚瀏覽器,核心團(tuán)隊二次創(chuàng)業(yè)阿博茨科技
瑞·達(dá)利歐在《原則》一書中表示,人應(yīng)該成為機(jī)器的一部分而不是機(jī)器。

長按掃碼 閱讀全文