視頻、語音、文本是拉動人工智能發(fā)展的三駕馬車,但是,相比視頻和語音,文本智能處理更難突破。成立于2015年的達觀數據是一家專注于文本智能處理的公司,基于自然語言處理、知識圖譜等技術,為客戶提供文本自動抽取、審核、糾錯、搜索、推薦、寫作等智能軟件系統(tǒng),實現(xiàn)業(yè)務流程自動化,提高企業(yè)效率。近日,達觀數據CEO陳運文博士向億歐分享了文本智能處理技術和應用現(xiàn)狀。
文本挖掘工作一半是技術一半是藝術
在人類過去大概100萬年的進化過程中,人類文明迭代速度很慢,但文字的出現(xiàn)使其陡然加速,為人類文明帶來了光和熱。隨著技術的發(fā)展,文字處理工作也由人工轉化為計算機。文本挖掘工作經歷了第一代符號主義、第二代語法規(guī)則、第三代統(tǒng)計學習,目前處于第四代深度學習階段,將實現(xiàn)用一個復雜的模型模擬人腦神經網絡運作。
在文本挖掘技術上,達觀數據一直走在行業(yè)前沿。達觀數據文檔審核系統(tǒng)2.0在深度學習的基礎上采用了遷移學習和增強學習,可實現(xiàn)注意力模型、BERT模型等,這也被稱為4.5代技術。陳運文表示,4.5代技術的使用可以加強機器的泛化能力,即提高機器對于文字的自適應理解能力或者說舉一反三能力,這將大大縮減訓練成本。
陳運文認為:“文本挖掘工作,一半是技術,一半是藝術。”文本挖掘工作需要慢工出細活,通過對文字的深入理解來探討如何使用數學模型更好的進行文字解讀。但是,從數學模型角度來講,很多時候文字的運用是不符合常理的。例如,“天很冷,能穿多少穿多少”和“天很熱,能穿多少穿多少”,同樣是“能穿多少穿多少”,但表達的是兩個意思。所以文本挖掘工作,它既是一個數學問題,通過后臺大量的數學運算對文字進行解讀,同時也需要將語言學等偏藝術領域的知識納入進去,才能讓計算機更好的解讀文字,甚至代替人完成一部分文字撰寫的工作。
NLP+RPA解放白領的手和腦
陳運文創(chuàng)業(yè)之前曾擔任盛大文學首席數據官、騰訊文學高級總監(jiān)、百度核心技術研發(fā)工程師等職位,一直從事文本挖掘相關工作。他發(fā)現(xiàn),工作中有60%左右的內容都是與文字相關,文字資料的處理和應用在互聯(lián)網企業(yè)內部雖然發(fā)揮了很大價值但沒有實現(xiàn)價值最大化。反而,在一些其他行業(yè),人工智能技術應用還處于早期狀態(tài),大量工作靠人手工記錄,NLP和RPA的結合將可以實現(xiàn)白領部分工作的自動化。
NLP (Natural Language Processing) ,自然語言處理可以讓計算機模擬白領的大腦運轉,實現(xiàn)閱讀和理解;RPA(Robotic Process Automation),機器人流程自動化可以模擬白領的手去進行鼠標和鍵盤的操作,實現(xiàn)自動化。如果只有RPA技術,計算機只能承擔初級的工作,但是有了NLP技術的幫助,就可以做更復雜的任務,真正承擔起虛擬員工的角色。
陳運文認為,NLP+RPA在中國大有可為,將是一片藍海市場。首先,技術走向成熟,國內RPA技術雖剛剛起步,但國外已經有許多成熟的應用。同時,UiPath、BluePrism等國外RPA企業(yè)也在通過不同的形式向中國市場滲透。其次,NLP+RPA可以明顯降低企業(yè)成本,帶來高回報率。根據IBM在《使用人工智能優(yōu)化機器人流程自動化的價值》報告中的估算,通過RPA可實現(xiàn) 30% 到 50% 的投資回報率 (ROI)。最后,市場規(guī)模大。據《全球人工智能市場2017-2021》報告披露的數據,RPA的市場規(guī)模預計將在2024年達到50億美元,復合增長率達到61.3%。在亞太地區(qū),RPA的市場規(guī)模預計在2021年達到8.17億美元,在此期間的增長率將達到181%。
金融行業(yè)是NLP+RPA落地的重要領域
NLP+RPA主要替代一些高重復、標準化、規(guī)則明確且高準確率要求的工作。金融行業(yè)過半員工在與文本合同打交道,但是他們90%的工作都是可以被替代的。
以信貸業(yè)務為例,貸前基于OCR可以幫助銀行工作人員對提交材料進行人物、事件、數值等關鍵信息抽取和審核;貸中支持合同多版本比對,對合同關鍵要素進行智能審核,防止陰陽合同風險;貸后對貸款項目評估報告關鍵信息提取及結構化,并對企業(yè)進行實時輿情分析監(jiān)控,實現(xiàn)有效跟蹤和監(jiān)督。
目前,達觀數據已服務招商銀行、中國平安、光大銀行等數十家金融機構。陳運文認為,金融行業(yè)對NLP+RPA的需求非常大,RPA具有非侵入性的特點,以外掛/插件的形式部署在客戶現(xiàn)有系統(tǒng)上,不影響其原有的成熟IT架構,部署成本較低。考慮到銀行的個性化定制需求,達觀在產品設計之初就特別重視產品的可擴展性。一方面,產品本身就支持客戶進行自定義規(guī)則,滿足自定制需求;另一方面,達觀也會不斷總結行業(yè)知識圖譜,升級產品,通過連接銀行內網的形式,幫助銀行升級語料庫和算法模型。
未來:文本智能處理專家
陳運文表示,我們將堅定的在文本智能處理這條路上走到頭,成為“文本智能處理專家”。2019年達觀數據一方面不斷積累海量的文本資料讓計算機訓練,另一方面不斷深挖現(xiàn)有的算法模型,重視基礎技術的研發(fā)工作。目前,達觀數據已與北京大學、復旦大學、上海財經大學等高校建立起了產學研合作關系,未來將與更多的高校合作,將學術界的先進成果與工程界的應用技術結合在一起,更好的突破文字語言理解工作。
產業(yè)互聯(lián)網如同大基站,在“新政策,新技術,新理念”三新戰(zhàn)略的倡導下滋養(yǎng)更多新興項目落地應用,在傳統(tǒng)行業(yè)、互聯(lián)網行業(yè)的轉型之路上扮演了助推器角色,正值億歐2019全球新經濟年會期間,特此設立產業(yè)互聯(lián)網峰會,力求從全球視角解析IT服務智能發(fā)展,邀請國內外一線企業(yè)分享行業(yè)發(fā)展歷程及未來趨勢。
您在本場論壇可以了解到軟件、硬件、物聯(lián)網、5G、ABC的服務進化史,了解到新資本新市場的走向。當我們的生活離不開技術,或許整個全球市場、服務商、用戶都應該對之有更深的思考。
峰會報名鏈接:
https://www.iyiou.com/post/ad/id/802
- 螞蟻國際任命首席創(chuàng)新官,加速推進數字化戰(zhàn)略發(fā)展
- 馬云現(xiàn)身支付寶20周年紀念日:AI將改變一切,但不意味著決定一切
- 萬事達卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調收集虹膜數據引來歐洲監(jiān)管調查
- 華為孟晚舟最新演講:長風萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會2023在上海開幕 攜手共建數智金融未來
- 移動支付發(fā)展超預期:2022年交易額1.3萬億美元 注冊賬戶16億
- 定位“敏捷的財務收支管理平臺”,合思品牌升級發(fā)布會上釋放了哪些信號?
- 分貝通商旅+費控+支付一體化戰(zhàn)略發(fā)布,一個平臺管理企業(yè)所有費用支出
- IMF經濟學家:加密資產背后的技術可以改善支付,增進公益
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。