對話達觀數(shù)據(jù)陳運文:“AI員工”將處理企業(yè)90%的文本工作

“計算機閱讀文字的速度是人類的500倍以上,讓計算機來做文字類工作非常迅速、效率高、效果好。目前文字類工作100%是人在做,未來我們希望和文字相關的工作,90%都靠計算機來做,最后把關的10%交給人類?!?/span>

“企業(yè)原來靠‘人拉肩扛’的方式處理文檔,我們要讓這些人力更好地釋放出來,更好地享受生活,更好地用在我們社會的其他重要方面。我們希望五年以后,中國有超過一半的大型企業(yè)能夠用上達觀的AI技術,來處理它們的文檔資料?!?/span>

2222.jpg

消費互聯(lián)網(wǎng)和企業(yè)互聯(lián)網(wǎng)領域的認知隔閡由來已久,踏入所謂的DT時代后,黑科技滋生的速度放佛跟不上人們對自動化、智能化美好生活的向往速度,以至于方興未艾的AI似乎很快就在技術狂熱者那里失了寵,讓位于一個叫做區(qū)塊鏈的“虛無縹緲”的東西。

實際上在“古典”的極客網(wǎng)看來,大數(shù)據(jù)、AI的應用才剛剛起步。在占據(jù)傳媒頭條的人臉識別、刷臉支付等錦上添花型應用的背后,大家似乎忽略了一個現(xiàn)實:占據(jù)人們大部分學習工作時間的文字文本,也還存在大量需要被AI化的地方。尤其是在企業(yè)級市場,倘若職員們能夠從日常繁復的文字工作中解放出來,那將是一個多名令人興奮的場景!

帶著這個認知和猜想,極客網(wǎng)日前專訪了達觀數(shù)據(jù)的CEO陳運文——一個曾經(jīng)打卡于百度、盛大和騰訊,后率兄弟團隊創(chuàng)業(yè)專注于文本智能處理的復旦大學計算機博士——看看他是如何一門心思將算法和算力“浪費”在“古典”的文字文本智能處理(相對圖像和視頻)領域的。

金融機構過半員工在與文本合同打交道,其實他們90%的工作可以交給計算機

概念可以一日千里,落地卻總是慢條斯理。陳運文告訴極客網(wǎng),一個金融機構里有超過一半的員工日常是在和大量的文本合同打交道,把這些工作自動化,以后就不需要人來做,而主要由計算機去完成?!斑^去兩年里,我們就是在這個領域投入大量技術能力,做核心的技術攻關?!?/span>

他指出,金融機構里有大量的員工需要審核合同里的流程,他們要去審核合同是否存在問題,比如數(shù)字是否一致?有沒有法律漏洞?有沒有不合企業(yè)規(guī)范、不合金融行業(yè)監(jiān)管要求的地方?經(jīng)過大量訓練后的計算機,則可以完成其中的絕大部分工作,處理完后再交給人去把關。

“計算機閱讀文字的速度是人類的500倍以上,讓計算機來做文字類工作非常迅速、效率高、效果好。”技術出身的陳運文自信地告訴極客網(wǎng),“目前文字類工作100%是人在做,未來我們希望和文字相關的工作,90%都靠計算機來做,最后把關的10%交給人類?!?/span>

“50%員工日常工作的90%由機器去完成”,相信企業(yè)經(jīng)營者都知道這背后意味著什么。而且可想象,這樣的場景絕不僅限于金融行業(yè),包括法律、媒體、快消零售等行業(yè),都存在著類似的重復枯燥的巨量文本文檔處理任務需要“機器代人”的解決之道。

陳運文告訴極客網(wǎng),定位文本智能處理專家的達觀數(shù)據(jù),瞄準的正是這些潛力場景,專注為數(shù)字化轉型升級期的企業(yè)提供完善的文本挖掘、知識圖譜、搜索引擎和個性化推薦等文本智能處理技術服務,幫助企業(yè)實現(xiàn)數(shù)據(jù)化、智能化運營,有效提升企業(yè)運營效率和經(jīng)營業(yè)績。

“AI員工”又快又好,但培養(yǎng)一名合格的“AI員工”卻并非易事

自動化、智能化帶來的結果很美好,但通向結果的道路,卻不總是那么順暢。陳運文指出,原理其實很簡單,讓計算機做員工的工作,本質上就是將計算機培養(yǎng)成員工(或許我們可以將之稱為“AI員工”);這個“AI員工”所做的事和人應該做的事差別越小,它就越接近于人類員工,越趨于合格。

在技術層面,這其實又是一個AI領域老生常談的三個要素的話題,即AI必不可少的數(shù)據(jù)、算法和算力。考慮到文本是最不占IT資源的數(shù)據(jù)類型,因此文本智能處理對AI技術的要求又可簡化為數(shù)據(jù)和算法兩大要點。陳運文自信地稱,達觀數(shù)據(jù)的文本智能處理已經(jīng)做到全球領先水平,成為國內(nèi)大型企業(yè)的首選合作伙伴。

達觀數(shù)據(jù)具體怎么做的呢?陳運文告訴極客網(wǎng),在數(shù)據(jù)層面,針對特定行業(yè),達觀先是從互聯(lián)網(wǎng)上采集幾十億字的文檔資料,讓計算機每天反復閱讀它們,提取這些文字背后的規(guī)律,讓它逐漸具備人的理解能力,去做分析挖掘。與此同時,特定客戶自己也積累了海量的歷史文本資料,也會讓計算機去閱讀分析這些資料,理解它的每一個字、每一句話、每一個段落的含義,以及字詞的組合方式。如此雙重閱讀訓練、不斷積累,計算機就實現(xiàn)了理解行業(yè)文本的能力。

如果說大量數(shù)據(jù)訓練的“后天努力”非常重要,那么算法模型層面的“先天智商”也同等重要。“AI員工”的“大腦”聰明程度、智慧程度,存在著高下之分。陳運文指出,達觀數(shù)據(jù)有超過100名工程師專注在核心算法模型上,去讓計算機具備理解字里行間含義的能力。盡管只有3000左右的常用字,但漢字的組合千變?nèi)f化,這需要計算機的大腦進化速度遠快于人腦,同時“喂”以大量數(shù)據(jù)“糧食”,才能快速成長為合格的“AI員工”。

資料顯示,在核心技術方面,達觀數(shù)據(jù)迄今已獲得了30余國家發(fā)明專利,出版了兩本人工智能著作,并發(fā)表了超100篇高質量行業(yè)技術論文。特別是在算法層面,陳運文帶隊的達觀技術團隊先后獲得了ACM CIKM Competition國際競賽冠軍、EMI國際黑客馬拉松算法競賽冠軍等多項桂冠。而在合作客戶方面,達觀數(shù)據(jù)已積累了華為、招商銀行、中國平安、中興、京東、順豐、中國移動、和訊財經(jīng)等數(shù)百家企業(yè)客戶的成功服務經(jīng)驗,各細分領域的“AI員工”都得到了極大的先天+后天錘煉。

達觀的詩與遠方:專注企業(yè)服務,解放人力做更有意義的事

當被問及對部分公司利用類似的AI技術,在消費互聯(lián)網(wǎng)領域風生水起估值上百億的看法時,陳運文告訴極客網(wǎng)達觀數(shù)據(jù)目前還是會專注在企業(yè)服務領域,一是因為文本處理應用面在企業(yè)層面最廣,二來能給社會創(chuàng)造更多價值。他預計,單金融機構中國就超過一萬家,整個企業(yè)級的文本智能處理市場規(guī)模是萬億級別的。

最重要的是,陳運文補充道,“企業(yè)原來靠‘人拉肩扛’的方式處理文檔,我們要讓這些人力更好地釋放出來,更好地享受生活,更好地用在我們社會的其他重要方面。我們希望五年以后,中國有超過一半的大型企業(yè)能夠用上達觀的AI技術,來處理它們的文檔資料?!?/span>

當然,他認為,這個過程人們不必擔憂失業(yè)等所謂的AI的副作用,就像120年前福特發(fā)明T型汽車并沒有讓北美15萬馬車車夫無路可走一樣;他們或許轉行,或許轉做汽車司機,提升了社會效率,實現(xiàn)了更大價值,人生也更有意義。今天包括歐洲和北美,企業(yè)職工的平均工作時間都低于中國,主要原因就是效率提升使得他們不用滿負荷工作就能夠享受人生。

但與此同時,陳運文對極客網(wǎng)強調,技術的發(fā)展從來都不是線性發(fā)展,而是指數(shù)跳躍。一個新技術的應用和普及,其速度只會越來越快。無線電普及用了10年時間,但智能手機兩三年就滿大街了?!癆I同樣如此,它的速度比以往任何技術的普及都會更快。我們很快就會看到它為企業(yè)帶來的提升效率、節(jié)約成本的效果。很快大量文本處理相關的工作——包括已知的和未知的——都將主要由計算機完成,人只要負責思考和下達指令即可?!?/span>


極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2018-05-21
對話達觀數(shù)據(jù)陳運文:“AI員工”將處理企業(yè)90%的文本工作
“計算機閱讀文字的速度是人類的500倍以上,讓計算機來做文字類工作非常迅速、效率高、效果好。目前文字類工作100%是人在做,未來我們希望和文字相關的工作,90%都靠計算機來做,最后把關的10%交給人類。”

長按掃碼 閱讀全文