文檔圖像識別領(lǐng)域頂級賽事“ICDAR2023”,實在智能展現(xiàn)AI雄厚實力!

近年來隨著深度學習的不斷前進,包括場景文本檢測與識別技術(shù)在內(nèi)的光學字符識別(Optical Character Recognition,OCR)得到了飛速發(fā)展。然而,印章這一生活辦公中隨處可見的重要元素卻未獲得關(guān)注,印章抬頭識別這一重要課題也面臨各式各樣的印章形狀、彎曲的文本內(nèi)容、復雜的背景要素以及無處不在的重疊文本等諸多難題。今年舉辦的第17屆ICDAR國際學術(shù)競賽中,就設(shè)置了印章抬頭識別競賽板塊,為針對性解決印章抬頭文本檢測和端到端印章抬頭文本內(nèi)容識別痛點尋求方案。

ICDAR(International Conference on Document Analysis and Recognition)是全球文檔圖像分析識別領(lǐng)域公認的權(quán)威學術(shù)會議,也是世界上舉辦最早和最成功的OCR賽事之一,更是評測和檢驗自然場景/網(wǎng)絡圖片文本自動提取與智能識別最新技術(shù)研究進展的重要國際賽事及標準。ICDAR系列賽事的高技術(shù)難度、高實際應用性,備受眾多科研院校、科技公司的廣泛關(guān)注,賽事舉辦至今已有119個國家的7821多支隊伍參與其中,持續(xù)為OCR技術(shù)發(fā)展注入推動力量。

本次大賽的2023印章抬頭識別競賽板塊(ICDAR 2023 Reading the Seal Title)由多位領(lǐng)域?qū)<医M織展開,實在智能作為AI領(lǐng)域的準獨角獸企業(yè),憑借在人工智能領(lǐng)域深耕多年的豐厚經(jīng)驗和領(lǐng)先的技術(shù)方案,與浙江大學、中國科學院信息工程研究所、中國移動云中心等優(yōu)秀單位共同位列十強!

實在智能此次參賽的解決方案,是基于先前領(lǐng)域內(nèi)研究成果進一步創(chuàng)新提出的“兩階段”的識別方法:第一階段檢測彎曲文本方案提出以五階的貝塞爾曲線擬合彎曲文本,實驗證明這一改進取得了更好的擬合效果;第二階段對抬頭文本的識別中設(shè)計了更強大的骨干網(wǎng)絡,增對各個印章類型設(shè)計了在線增強策略,合成了10萬張合成數(shù)據(jù)用于訓練,最終在Task 2. End-to-end Seal Title Recognition 任務上排名挺進前十。此次競賽中的優(yōu)秀成績,再一次彰顯了實在智能突出的全自研OCR能力。

目前,實在智能已結(jié)合產(chǎn)品落地經(jīng)驗和收集的語料,繼續(xù)迭代優(yōu)化了OCR檢測和識別模型,實現(xiàn)了自有的通用文字識別、表格識別、鍵值抽取、通用證照、印章識別等功能,其AI產(chǎn)品IDP文檔審閱正是通過運用光學字符識別(OCR)、自然語言處理能力(NLP)等前沿技術(shù)為核心的文本智能處理智能產(chǎn)品,應用于信息電子化、風險預警等業(yè)務領(lǐng)域,為賦能更多行業(yè)數(shù)字化升級轉(zhuǎn)型帶來場景解決方案。

在此基礎(chǔ)上,實在智能近期還融合人工智能領(lǐng)域前沿的大型語言模型(LLM)和OCR、NLP等核心技術(shù),進一步賦能IDP文檔審閱,推出了首款能夠自動讀懂文檔并與用戶交流對話的Chat-IDP。

Chat-IDP是借助行業(yè)領(lǐng)先AI能力,OCR、NLP、LLM等核心技術(shù),實現(xiàn)AI處理文檔的一款智能產(chǎn)品,能夠自動分析內(nèi)容密集、篇幅長、非結(jié)構(gòu)化的文檔,從而實現(xiàn)內(nèi)容風險審查、智能歸檔、關(guān)鍵信息抽取、比對,創(chuàng)新打造了智能文本審核的全新范式,進一步優(yōu)化了AI能力邊界,提升用戶的交互使用體驗,以更自動化、智能化的文檔審閱流程節(jié)省人工閱讀文檔以及檢索關(guān)鍵信息的精力以及時間成本,在確保95%以上準確率的基礎(chǔ)上,幫助業(yè)務人員實現(xiàn)效率提升超5倍的智能文檔審核工作。

值得一提的是,實在智能在OCR、NLP、CV等關(guān)鍵技術(shù)方面均已取得重要突破,擁有位居行業(yè)第一的數(shù)百項獨立自主知識產(chǎn)權(quán)和數(shù)十項實際授予發(fā)明專利。今后,實在智能也將基于大型語言模型領(lǐng)域的開發(fā)能力與經(jīng)驗,繼續(xù)堅持客戶第一的價值觀,在全面支持信創(chuàng)的實在RPA產(chǎn)品體系中整合進大型語言模型技術(shù),加速實現(xiàn)部分領(lǐng)域的“即說即所得”服務能力,以創(chuàng)新的交互方式與技術(shù)能力確保為千行百業(yè)的客戶打造契合多重場景需求的AI落地應用,助其輕松上手各類數(shù)字化工具。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )