達(dá)觀數(shù)據(jù)陳運(yùn)文:NLP+RPA潛力無(wú)窮,做文本智能處理專家

視頻、語(yǔ)音、文本是拉動(dòng)人工智能發(fā)展的三駕馬車,但是,相比視頻和語(yǔ)音,文本智能處理更難突破。成立于2015年的達(dá)觀數(shù)據(jù)是一家專注于文本智能處理的公司,基于自然語(yǔ)言處理、知識(shí)圖譜等技術(shù),為客戶提供文本自動(dòng)抽取、審核、糾錯(cuò)、搜索、推薦、寫作等智能軟件系統(tǒng),實(shí)現(xiàn)業(yè)務(wù)流程自動(dòng)化,提高企業(yè)效率。近日,達(dá)觀數(shù)據(jù)CEO陳運(yùn)文博士向億歐分享了文本智能處理技術(shù)和應(yīng)用現(xiàn)狀。

文本挖掘工作一半是技術(shù)一半是藝術(shù)

在人類過(guò)去大概100萬(wàn)年的進(jìn)化過(guò)程中,人類文明迭代速度很慢,但文字的出現(xiàn)使其陡然加速,為人類文明帶來(lái)了光和熱。隨著技術(shù)的發(fā)展,文字處理工作也由人工轉(zhuǎn)化為計(jì)算機(jī)。文本挖掘工作經(jīng)歷了第一代符號(hào)主義、第二代語(yǔ)法規(guī)則、第三代統(tǒng)計(jì)學(xué)習(xí),目前處于第四代深度學(xué)習(xí)階段,將實(shí)現(xiàn)用一個(gè)復(fù)雜的模型模擬人腦神經(jīng)網(wǎng)絡(luò)運(yùn)作。

在文本挖掘技術(shù)上,達(dá)觀數(shù)據(jù)一直走在行業(yè)前沿。達(dá)觀數(shù)據(jù)文檔審核系統(tǒng)2.0在深度學(xué)習(xí)的基礎(chǔ)上采用了遷移學(xué)習(xí)和增強(qiáng)學(xué)習(xí),可實(shí)現(xiàn)注意力模型、BERT模型等,這也被稱為4.5代技術(shù)。陳運(yùn)文表示,4.5代技術(shù)的使用可以加強(qiáng)機(jī)器的泛化能力,即提高機(jī)器對(duì)于文字的自適應(yīng)理解能力或者說(shuō)舉一反三能力,這將大大縮減訓(xùn)練成本。

陳運(yùn)文認(rèn)為:“文本挖掘工作,一半是技術(shù),一半是藝術(shù)。”文本挖掘工作需要慢工出細(xì)活,通過(guò)對(duì)文字的深入理解來(lái)探討如何使用數(shù)學(xué)模型更好的進(jìn)行文字解讀。但是,從數(shù)學(xué)模型角度來(lái)講,很多時(shí)候文字的運(yùn)用是不符合常理的。例如,“天很冷,能穿多少穿多少”和“天很熱,能穿多少穿多少”,同樣是“能穿多少穿多少”,但表達(dá)的是兩個(gè)意思。所以本挖掘工作,它既是一個(gè)數(shù)學(xué)問(wèn)題,通過(guò)后臺(tái)大量的數(shù)學(xué)運(yùn)算對(duì)文字進(jìn)行解讀,同時(shí)也需要將語(yǔ)言學(xué)等偏藝術(shù)領(lǐng)域的知識(shí)納入進(jìn)去,才能讓計(jì)算機(jī)更好的解讀文字,甚至代替人完成一部分文字撰寫的工作。

NLP+RPA解放白領(lǐng)的手和腦

陳運(yùn)文創(chuàng)業(yè)之前曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官、騰訊文學(xué)高級(jí)總監(jiān)、百度核心技術(shù)研發(fā)工程師等職位,一直從事文本挖掘相關(guān)工作。他發(fā)現(xiàn),工作中有60%左右的內(nèi)容都是與文字相關(guān),文字資料的處理和應(yīng)用在互聯(lián)網(wǎng)企業(yè)內(nèi)部雖然發(fā)揮了很大價(jià)值但沒(méi)有實(shí)現(xiàn)價(jià)值最大化。反而,在一些其他行業(yè),人工智能技術(shù)應(yīng)用還處于早期狀態(tài),大量工作靠人手工記錄,NLP和RPA的結(jié)合將可以實(shí)現(xiàn)白領(lǐng)部分工作的自動(dòng)化。

NLP (Natural Language Processing) ,自然語(yǔ)言處理可以讓計(jì)算機(jī)模擬白領(lǐng)的大腦運(yùn)轉(zhuǎn),實(shí)現(xiàn)閱讀和理解;RPA(Robotic Process Automation),機(jī)器人流程自動(dòng)化可以模擬白領(lǐng)的手去進(jìn)行鼠標(biāo)和鍵盤的操作,實(shí)現(xiàn)自動(dòng)化。如果只有RPA技術(shù),計(jì)算機(jī)只能承擔(dān)初級(jí)的工作,但是有了NLP技術(shù)的幫助,就可以做更復(fù)雜的任務(wù),真正承擔(dān)起虛擬員工的角色。

陳運(yùn)文認(rèn)為,NLP+RPA在中國(guó)大有可為,將是一片藍(lán)海市場(chǎng)。首先,技術(shù)走向成熟,國(guó)內(nèi)RPA技術(shù)雖剛剛起步,但國(guó)外已經(jīng)有許多成熟的應(yīng)用。同時(shí),UiPath、BluePrism等國(guó)外RPA企業(yè)也在通過(guò)不同的形式向中國(guó)市場(chǎng)滲透。其次,NLP+RPA可以明顯降低企業(yè)成本,帶來(lái)高回報(bào)率。根據(jù)IBM在《使用人工智能優(yōu)化機(jī)器人流程自動(dòng)化的價(jià)值》報(bào)告中的估算,通過(guò)RPA可實(shí)現(xiàn) 30% 到 50% 的投資回報(bào)率 (ROI)。最后,市場(chǎng)規(guī)模大。據(jù)《全球人工智能市場(chǎng)2017-2021》報(bào)告披露的數(shù)據(jù),RPA的市場(chǎng)規(guī)模預(yù)計(jì)將在2024年達(dá)到50億美元,復(fù)合增長(zhǎng)率達(dá)到61.3%。在亞太地區(qū),RPA的市場(chǎng)規(guī)模預(yù)計(jì)在2021年達(dá)到8.17億美元,在此期間的增長(zhǎng)率將達(dá)到181%。

金融行業(yè)是NLP+RPA落地的重要領(lǐng)域

NLP+RPA主要替代一些高重復(fù)、標(biāo)準(zhǔn)化、規(guī)則明確且高準(zhǔn)確率要求的工作。金融行業(yè)過(guò)半員工在與文本合同打交道,但是他們90%的工作都是可以被替代的。

以信貸業(yè)務(wù)為例,貸前基于OCR可以幫助銀行工作人員對(duì)提交材料進(jìn)行人物、事件、數(shù)值等關(guān)鍵信息抽取和審核;貸中支持合同多版本比對(duì),對(duì)合同關(guān)鍵要素進(jìn)行智能審核,防止陰陽(yáng)合同風(fēng)險(xiǎn);貸后對(duì)貸款項(xiàng)目評(píng)估報(bào)告關(guān)鍵信息提取及結(jié)構(gòu)化,并對(duì)企業(yè)進(jìn)行實(shí)時(shí)輿情分析監(jiān)控,實(shí)現(xiàn)有效跟蹤和監(jiān)督。

目前,達(dá)觀數(shù)據(jù)已服務(wù)招商銀行、中國(guó)平安、光大銀行等數(shù)十家金融機(jī)構(gòu)。陳運(yùn)文認(rèn)為,金融行業(yè)對(duì)NLP+RPA的需求非常大,RPA具有非侵入性的特點(diǎn),以外掛/插件的形式部署在客戶現(xiàn)有系統(tǒng)上,不影響其原有的成熟IT架構(gòu),部署成本較低。考慮到銀行的個(gè)性化定制需求,達(dá)觀在產(chǎn)品設(shè)計(jì)之初就特別重視產(chǎn)品的可擴(kuò)展性。一方面,產(chǎn)品本身就支持客戶進(jìn)行自定義規(guī)則,滿足自定制需求;另一方面,達(dá)觀也會(huì)不斷總結(jié)行業(yè)知識(shí)圖譜,升級(jí)產(chǎn)品,通過(guò)連接銀行內(nèi)網(wǎng)的形式,幫助銀行升級(jí)語(yǔ)料庫(kù)和算法模型。

未來(lái):文本智能處理專家

陳運(yùn)文表示,我們將堅(jiān)定的在文本智能處理這條路上走到頭,成為“文本智能處理專家”。2019年達(dá)觀數(shù)據(jù)一方面不斷積累海量的文本資料讓計(jì)算機(jī)訓(xùn)練,另一方面不斷深挖現(xiàn)有的算法模型,重視基礎(chǔ)技術(shù)的研發(fā)工作。目前,達(dá)觀數(shù)據(jù)已與北京大學(xué)、復(fù)旦大學(xué)、上海財(cái)經(jīng)大學(xué)等高校建立起了產(chǎn)學(xué)研合作關(guān)系,未來(lái)將與更多的高校合作,將學(xué)術(shù)界的先進(jìn)成果與工程界的應(yīng)用技術(shù)結(jié)合在一起,更好的突破文字語(yǔ)言理解工作。


產(chǎn)業(yè)互聯(lián)網(wǎng)如同大基站,在“新政策,新技術(shù),新理念”三新戰(zhàn)略的倡導(dǎo)下滋養(yǎng)更多新興項(xiàng)目落地應(yīng)用,在傳統(tǒng)行業(yè)、互聯(lián)網(wǎng)行業(yè)的轉(zhuǎn)型之路上扮演了助推器角色,正值億歐2019全球新經(jīng)濟(jì)年會(huì)期間,特此設(shè)立產(chǎn)業(yè)互聯(lián)網(wǎng)峰會(huì),力求從全球視角解析IT服務(wù)智能發(fā)展,邀請(qǐng)國(guó)內(nèi)外一線企業(yè)分享行業(yè)發(fā)展歷程及未來(lái)趨勢(shì)。

您在本場(chǎng)論壇可以了解到軟件、硬件、物聯(lián)網(wǎng)、5G、ABC的服務(wù)進(jìn)化史,了解到新資本新市場(chǎng)的走向。當(dāng)我們的生活離不開(kāi)技術(shù),或許整個(gè)全球市場(chǎng)、服務(wù)商、用戶都應(yīng)該對(duì)之有更深的思考。

峰會(huì)報(bào)名鏈接:

https://www.iyiou.com/post/ad/id/802


極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-04-22
達(dá)觀數(shù)據(jù)陳運(yùn)文:NLP+RPA潛力無(wú)窮,做文本智能處理專家
RPA技術(shù)在中國(guó)還處于起步階段,NLP+RPA可代替白領(lǐng)的手和腦,承擔(dān)許多復(fù)雜任務(wù),助力企業(yè)自動(dòng)化、智能化。

長(zhǎng)按掃碼 閱讀全文