世界第一!騰訊優(yōu)圖刷新國際權(quán)威比賽ICDAR OCR信息提取紀錄

近日,騰訊優(yōu)圖在國際權(quán)威的ICDAR 2019“Scanned Receipts OCR and Information Extraction”關(guān)鍵信息抽取任務(wù)中,通過自研智能結(jié)構(gòu)化方案,以97.67%的Hmean排名刷新榜單紀錄。從識別到內(nèi)容理解,優(yōu)圖OCR正在不斷突破技術(shù)邊界,進行著核心技術(shù)的創(chuàng)新。

世界第一!騰訊優(yōu)圖刷新國際權(quán)威比賽ICDAR OCR信息提取紀錄

ICDAR SROIE比賽榜單

世界第一!騰訊優(yōu)圖刷新國際權(quán)威比賽ICDAR OCR信息提取紀錄

ICDAR SROIE榜單結(jié)果

ICDAR(International Conference on Document Analysis and Recognition)是全球OCR領(lǐng)域公認最權(quán)威的比賽之一, 有OCR領(lǐng)域的奧斯卡盛會之稱。ICDAR 在2019年新增了SROIE(Scanned Receipts OCR and Information Extraction)關(guān)鍵信息抽取任務(wù),標(biāo)志著OCR從識別到理解的進化。

作為首個針對結(jié)構(gòu)化文檔提出的信息抽取任務(wù),SROIE因其技術(shù)的挑戰(zhàn)性和廣泛的應(yīng)用性,一直是全球各大名校、科技公司競逐的焦點。此次,騰訊優(yōu)圖刷新OCR信息提取紀錄,也標(biāo)志著業(yè)界對騰訊OCR科研成果的認可。

世界第一!騰訊優(yōu)圖刷新國際權(quán)威比賽ICDAR OCR信息提取紀錄

優(yōu)圖OCR技術(shù)能力

作為快速數(shù)據(jù)采集的手段,OCR技術(shù)已在越來越多貼近消費端需求的真實場景中落地,例如金融、政務(wù)、醫(yī)療、財務(wù)報銷等領(lǐng)域,OCR技術(shù)在優(yōu)化業(yè)務(wù)流程、解放生產(chǎn)力和降低企業(yè)成本方面,實效凸顯,得到了行業(yè)和客戶的廣泛認可。

據(jù)騰訊優(yōu)圖研究人員表示,在此次SROIE任務(wù)中主要存在兩方面難點,首先是票據(jù)中的地址和公司名稱字段長短不一,位置近鄰,內(nèi)容相似且干擾較多。其次是,在應(yīng)付款項字段提取中,同一張票據(jù)中可能存在多個相同或相近的金額,例如單價、小計、含稅金額、優(yōu)惠金額等,而不同票據(jù)之間對于該項的前綴描述也不盡相同,這些難題對于OCR算法的適應(yīng)能力更具挑戰(zhàn)性。

世界第一!騰訊優(yōu)圖刷新國際權(quán)威比賽ICDAR OCR信息提取紀錄

世界第一!騰訊優(yōu)圖刷新國際權(quán)威比賽ICDAR OCR信息提取紀錄

方案結(jié)果對比

為了攻克這兩大難題,騰訊優(yōu)圖提出了一種智能結(jié)構(gòu)化模型,基于相對位置Attention的結(jié)構(gòu)避免語義可讀性對模型性能的影響。融入圖像整體表征,使得模型能夠在了解版式分布的同時,關(guān)注局部細微差異。此外,騰訊優(yōu)圖還細化了標(biāo)簽層級,內(nèi)聚關(guān)鍵字段內(nèi)部特征,強化字段交界處的語義變化表征,提升模型在地址、公司字段難例上的表現(xiàn)效果。因此相較于TOP榜單模型,騰訊優(yōu)圖的智能結(jié)構(gòu)化方案結(jié)合自然語言處理能力,不僅在速度上更快,字段提取準(zhǔn)確率也更高。

目前,騰訊優(yōu)圖OCR通用文字識別涵蓋了印刷體、英文、手寫、表格、印章、速算等諸多能力,結(jié)構(gòu)化識別實現(xiàn)了從多個垂直場景結(jié)構(gòu)化到自定義模板結(jié)構(gòu)化方案及智能結(jié)構(gòu)化方案的全覆蓋,幫助各產(chǎn)品和業(yè)務(wù)提升效率、創(chuàng)造價值。

騰訊優(yōu)圖始終積極推動研究成果在業(yè)務(wù)領(lǐng)域的落地。在OCR領(lǐng)域,騰訊優(yōu)圖基于多角度文本檢測、語義增強的文字識別、公式識別、NLP后處理等基礎(chǔ)技術(shù),輸出了通用文字識別、證照識別、智能票據(jù)、單據(jù)識別、車輛信息識別、教育試題識別、金融保險單據(jù)識別等多個產(chǎn)品及解決方案, 并在政務(wù)、金融、教育、醫(yī)療等多個應(yīng)用場景落地。

未來,優(yōu)圖將以更加開放的心態(tài),深耕于技術(shù)領(lǐng)域,不斷擴展技術(shù)成果的落地場景和應(yīng)用空間,帶給大眾更多切實便利和驚喜體驗。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )