原標(biāo)題:從頂級賽事殿堂飛向人間煙火:度小滿的NLP技術(shù)突破能給小微企業(yè)帶來什么?
一家企業(yè)的技術(shù)實(shí)力究竟怎么樣,國際頂級賽事的比拼,絕對是一塊試金石。
最近,在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking(文檔排序)任務(wù)中,來自度小滿金融科技的AI-NLP團(tuán)隊(duì)就刷新了記錄,超越三星、微軟、谷歌、斯坦福、清華大學(xué)等一眾參賽者,榮登榜首(截至2021年3月12日)。
2018年,度小滿金融才開始獨(dú)立運(yùn)營,并組建了技術(shù)團(tuán)隊(duì)。兩年多的時(shí)間,一家金融科技公司究竟是如何一步步實(shí)現(xiàn)了國際頂級賽事的能力飛躍?對于一家商業(yè)公司來說,學(xué)術(shù)領(lǐng)域的突破又意味著什么,是否能轉(zhuǎn)化為真實(shí)的產(chǎn)業(yè)價(jià)值,改變普通人的金融生活?
這些都是“第一名”的光環(huán)背后,更值得我們關(guān)注的東西。
過去的成績:技術(shù)基因決定故事走向
看到這個(gè)新聞,大家的第一反應(yīng)可能是“是微軟飄了還是谷歌提不動(dòng)刀了”,這個(gè)比賽究竟是干嘛的?
簡單說一下MS MARCO挑戰(zhàn)賽。它是自然語言處理NLP領(lǐng)域的權(quán)威比賽,基于微軟構(gòu)建的大規(guī)模英文閱讀理解數(shù)據(jù)集MARCO(Microsoft MAchine ReadingCOmprehension),需要參賽者為用戶輸入的問題找尋到最貼切、最需要的答案,并對答案進(jìn)行排序。
以這次度小滿技術(shù)團(tuán)隊(duì)刷新紀(jì)錄的文檔排序Document Ranking(文檔排序)任務(wù)為例,就至少面臨以下幾個(gè)挑戰(zhàn):
首先,MARCO數(shù)據(jù)集采用的是來自搜索引擎 BING 的用戶真實(shí)搜索行為和點(diǎn)擊日志,最大程度地模擬和還原了用戶使用搜索引擎的真實(shí)場景,因此數(shù)據(jù)標(biāo)注并不完全,這會(huì)直接影響模型的性能表現(xiàn);
其次,MARCO數(shù)據(jù)集規(guī)模非常大,包含數(shù)百萬個(gè)問題和對應(yīng)的近千萬篇文檔,而每一個(gè)問題都會(huì)提供多篇來自搜索結(jié)果的網(wǎng)頁文檔,相當(dāng)于要在一堆文檔中判斷出哪一個(gè)是用戶真正想要的,這需要機(jī)器對多篇文檔進(jìn)行綜合理解才能判斷出答案。
此外,MS MARCO挑戰(zhàn)賽由于權(quán)威性高、應(yīng)用價(jià)值大,吸引非常多的工業(yè)界巨頭和學(xué)術(shù)機(jī)構(gòu)來參與,競爭十分激烈。要贏過來自海外谷歌、韓國三星AI研究院、斯坦福大學(xué),國內(nèi)的清華大學(xué)等等的其他隊(duì)伍,難度更是直線上升。
而度小滿NLP團(tuán)隊(duì)提交的模型,不僅以0.416的eval分?jǐn)?shù)大幅領(lǐng)先其他團(tuán)隊(duì),還在第一名的位置維持了一個(gè)多月的時(shí)間,這不得不讓人好奇,他們到底是怎么做到的?
經(jīng)過訪談我們得知,度小滿NLP團(tuán)隊(duì)首次提出了DML文本排序算法,通過自主研發(fā)的自適應(yīng)預(yù)訓(xùn)練語言模型對query(用戶搜索的真實(shí)問題)和document文本進(jìn)行深度理解,利用了數(shù)十萬數(shù)據(jù)來訓(xùn)練模型,經(jīng)過召回、重排等多個(gè)階段,給出最終排序。
完成突破的過程毫無疑問是充滿艱苦的。度小滿的技術(shù)人員透露,參賽隊(duì)伍每天幾乎都工作10-15個(gè)小時(shí),中間做了非常多的創(chuàng)新和嘗試,不斷優(yōu)化和改進(jìn)算法??稍捰终f回來,技術(shù)創(chuàng)新最終比拼的還是“腦力”。度小滿金融2018年才開始獨(dú)立運(yùn)營,兩年內(nèi)就能積累起挑戰(zhàn)國際AI巨頭的實(shí)力嗎?
原來,度小滿在成立初始,就抱著將NLP等科技引入金融業(yè)務(wù)當(dāng)中的理想,建立起了一支AI團(tuán)隊(duì)。其中一部分人來自百度,眾所周知,百度是中國NLP領(lǐng)域的一面技術(shù)旗幟,曾獲得過包括國家科技進(jìn)步獎(jiǎng)在內(nèi)的諸多權(quán)威獎(jiǎng)項(xiàng),這種技術(shù)基因也為度小滿所沿襲。而另一方面,度小滿也以十分嚴(yán)格的標(biāo)準(zhǔn)吸納技術(shù)人才,建構(gòu)起了一支實(shí)力強(qiáng)勁的技術(shù)隊(duì)伍。
團(tuán)隊(duì)建起來了,安心支持自家的核心業(yè)務(wù)就好,為什么非得去國際賽場上“找虐”呢?
一方面,金融領(lǐng)域需要各種語言、語義相關(guān)的NLP技術(shù)和新方法來提升業(yè)務(wù)能力,來對風(fēng)控模型、用戶畫像等進(jìn)行升級,用更先進(jìn)的算法來提升項(xiàng)目,也是度小滿從成立之初就追求的。而國際頂級賽事,自然成了不容錯(cuò)過的絕佳“練兵場”。
桃李不言,下自成蹊。度小滿在NLP領(lǐng)域的突破,看似奇異,背后卻有著綿長的技術(shù)信仰、強(qiáng)烈的業(yè)務(wù)訴求支撐其前行。
現(xiàn)實(shí)的困境:NLP如何為小微企業(yè)插上翅膀
所有過往,皆為序章。
比起度小滿為什么要參加國際比賽,可能更讓人難以理解的是,刷新紀(jì)錄對你我普通人來說有什么意義?這種疑問,恰恰說明科技賦能產(chǎn)業(yè)的改造潛力遠(yuǎn)比我們想象中更深。
詩人塞繆爾·約翰遜曾說,語言是科學(xué)的唯一工具。事實(shí)上,今天度小滿NLP領(lǐng)域所追尋的突破,也是在為金融科技和普通人之間搭建起一座橋梁。
度小滿所提交的模型,其所具備的強(qiáng)有力的文本理解和匹配能力,可以輕松應(yīng)用于金融、征信等多個(gè)領(lǐng)域中,賦能給中小企業(yè)者。
我們知道,中小企業(yè)融資難是個(gè)重要而復(fù)雜的問題。在現(xiàn)實(shí)中小微企業(yè)融資有著幾座難以逾越的高山:
1.融資成本高:由于小微企業(yè)的經(jīng)營規(guī)模小,風(fēng)險(xiǎn)系數(shù)高,一般還沒有抵押物,許多金融機(jī)構(gòu)不愿意放貸,或是設(shè)定更高的利息水平;
2.風(fēng)控難度大:數(shù)據(jù)碎片化,缺乏長期信用評級,無法完整地了解小微企業(yè)的整體情況,判斷其償債能力,往往難以獲得銀行和資本市場的信任;
3.周轉(zhuǎn)場景多,現(xiàn)金流壓力大,而傳統(tǒng)融資渠道審核慢、放款慢,著急情況下很容易被黑灰產(chǎn)或不良小貸機(jī)構(gòu)欺騙。
在近幾年的政府的工作報(bào)告中,多次提及要“幫助小微企業(yè)降低綜合融資成本”。而通過公開數(shù)據(jù)我們發(fā)現(xiàn),度小滿針對小微企業(yè)主的年化貸款利率僅有3.65%。而全國銀行業(yè)新發(fā)放普惠性小微貸款的利率平均達(dá)到5.93%(2020年數(shù)據(jù))。2020年,度小滿累積為小微企業(yè)主提供了3000億元的無抵押信用貸款,人均放款額同比增加35%。
更低的利率,不低的額度,度小滿憑什么這么敢?技術(shù),就是所有不確定性中最大的確定性。
度小滿在MS MARCO比賽中所運(yùn)用到的數(shù)據(jù)挖掘、閱讀理解等NLP技術(shù),就已經(jīng)在度小滿的小微風(fēng)控模型中投入了實(shí)際應(yīng)用,通過對企業(yè)公章、征信報(bào)告等非結(jié)構(gòu)化信息進(jìn)行深度挖掘和理解,為風(fēng)控模型提供了更豐富的特征和數(shù)據(jù)維度,從而可以更高效精準(zhǔn)地識別風(fēng)險(xiǎn)因素,提升小微企業(yè)的融資效率,幫助其抵御黑產(chǎn)侵害。
舉個(gè)例子,在挑戰(zhàn)賽中,度小滿NLP團(tuán)隊(duì)需要解決一個(gè)技術(shù)難題:沒有被點(diǎn)擊的搜索結(jié)果有可能是錯(cuò)的,但也有可能是對,如果系統(tǒng)錯(cuò)過了這些沒有被點(diǎn)擊、但是正確的信息,其排序結(jié)果可能無法呈現(xiàn)出最佳效果。
而在小微企業(yè)融資場景中,同樣存在很多這樣的信息,比如有的用戶并沒有提供相關(guān)信息或行為,系統(tǒng)就需要對這些沒有標(biāo)注的樣本,準(zhǔn)確地判斷出其風(fēng)險(xiǎn)等級。
推動(dòng)AI、NLP技術(shù)走向產(chǎn)業(yè)側(cè),或許是提升小微企業(yè)融資效率、降低融資成本的解決方案中,最重要的議題之一,
就拿度小滿來說,首先,借助NLP技術(shù)跨越信任的高山。對非結(jié)構(gòu)化數(shù)據(jù)的挖掘,能夠從經(jīng)營行為、營業(yè)范圍、財(cái)務(wù)年報(bào)等等更多維度的信息中加深對用戶的洞察,準(zhǔn)確判斷出對方的資質(zhì),解決傳統(tǒng)風(fēng)控模型樣本不足、評級不準(zhǔn)的問題,為資本市場與小微企業(yè)之間建立信任;
其次,利用AI智能化地識別出更多風(fēng)險(xiǎn)指標(biāo)。傳統(tǒng)風(fēng)控模型需要人根據(jù)業(yè)務(wù)需要和經(jīng)驗(yàn),確定哪些特征是有幫助的,而度小滿借助AI可以讓機(jī)器自動(dòng)去學(xué)習(xí)相關(guān)特征,可以將數(shù)據(jù)得到充分利用,效率更高,征信結(jié)果更準(zhǔn)確。
最后,通過技術(shù)協(xié)同來提升金融服務(wù)的可靠性與安全性。AI、NLP領(lǐng)域的技術(shù)能力并沒有讓度小滿忽視傳統(tǒng)金融工具的價(jià)值,事實(shí)上,在讓智能系統(tǒng)給出判斷的同時(shí),度小滿也會(huì)結(jié)合一些業(yè)內(nèi)成熟應(yīng)用的統(tǒng)計(jì)方法作為參考,對小微企業(yè)的償債能力和風(fēng)險(xiǎn)系數(shù)進(jìn)行綜合評估。
在度小滿的努力中,自然語言的奧秘被拆解,化成千行百業(yè)的智能化升級契機(jī),小微企業(yè)可以在復(fù)雜變幻的商業(yè)環(huán)境中更快速地獲得支持、尋覓新機(jī)。這或許可以回答很多人的疑問:為什么企業(yè)要跟學(xué)術(shù)機(jī)構(gòu)一起在頂級賽事上同臺競技?
答案就在于,每一次技術(shù)領(lǐng)域的點(diǎn)滴突破,都有可能改變一些行業(yè)的既有規(guī)則,化不可能為可能,助力更多小微企業(yè)飛向更光明的未來。
未來的企望:科技與產(chǎn)業(yè)的更多握手可能
可以看到,想要在資本市場和小微企業(yè)之間建構(gòu)起信任橋梁,既需要技術(shù)積累,又要有對實(shí)體經(jīng)濟(jì)、小微企業(yè)業(yè)態(tài)的真實(shí)洞察與服務(wù)理念,這恰好也是度小滿一直以來努力的方向。
除了前面提到的風(fēng)控等場景之外,其實(shí)在小微企業(yè)的金融需求中,還存在許多痛點(diǎn)。比如需要反復(fù)前往網(wǎng)點(diǎn)當(dāng)面證明自己的資質(zhì)、等待人工審核等等,在這些環(huán)節(jié)中,度小滿也從用戶角度結(jié)合技術(shù)想了很多解決防范。
比如利用OCR技術(shù)將對方提供的電子化票據(jù)進(jìn)行識別處理,在線上就能審核,實(shí)現(xiàn)申請秒批,有效緩解小微企業(yè)的資金壓力。
借助AI預(yù)測,度小滿也會(huì)在貸后運(yùn)用機(jī)器人流程自動(dòng)化(RPA)還款提醒,降低后期的運(yùn)維成本,也讓小微企業(yè)主避免因逾期還款而帶來的負(fù)面影響。
對于合作伙伴來說,借助度小滿的技術(shù)能力,可以對更多潛在優(yōu)質(zhì)客戶進(jìn)行準(zhǔn)確識別,帶來業(yè)務(wù)上的良性增長。
也可以說,度小滿目前所扮演的,既是風(fēng)險(xiǎn)的守門員,也是增長的主推手,這是極為稀缺的產(chǎn)業(yè)角色。
從技術(shù)特征上推演,NLP技術(shù)的潛力能夠落地的場景和需求還有很多。具體要如何激發(fā)出技術(shù)的能量,這個(gè)問題就交給度小滿去操心吧。對于小微企業(yè)主來說,只需要安心經(jīng)營未來,不必為資金貸款終日憂心,這就是平凡至美的人間煙火味。
技術(shù)的根系越深遠(yuǎn),越能歷久彌長地將價(jià)值輸送到每一個(gè)產(chǎn)業(yè)細(xì)枝末節(jié)當(dāng)中,直至浸潤每一個(gè)人的心田。
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機(jī)“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車整車股盤初強(qiáng)勢拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。