近期,2022中國圖象圖形大會(CCIG 2022)在成都圓滿落幕。本次大會由中國科學技術(shù)協(xié)會指導,中國圖象圖形學學會主辦,四川大學承辦,電子科技大學協(xié)辦,匯聚了潘云鶴院士、鄭南寧院士、高文院士、戴瓊海院士、王耀南院士、喬紅院士等百余位國內(nèi)知名學者,以及來自百度、華為、OPPO、合合信息等企業(yè)的技術(shù)專家,共話圖像圖形學術(shù)研究與技術(shù)創(chuàng)新趨勢,共謀行業(yè)新發(fā)展,參會人數(shù)突破1500人。
大會采用主旨報告與主題/特色論壇的方式進行。其中,在主旨報告環(huán)節(jié)里,中國工程院院士、浙江大學教授潘云鶴院士介紹了視覺知識與視覺智能的相關(guān)工作,闡釋了人工智能發(fā)展的過程中,視覺智能起到的重要的作用。本次大會還設(shè)置了涵蓋OCR、圖像理解、計算機視覺、人機交互、類腦視覺、AR/VR、三維視覺、模式識別等多個圖形圖像領(lǐng)域的學術(shù)論壇,合合信息自然語言算法研發(fā)總監(jiān)丁凱博士、合合信息圖像算法研發(fā)總監(jiān)郭豐俊博士受邀參與《OCR前沿技術(shù)與產(chǎn)業(yè)應(yīng)用》等論壇,同來自中科院、北京大學、華中科技大學、聯(lián)想研究院、騰訊優(yōu)圖實驗室等頂尖學術(shù)機構(gòu)、高校與企業(yè)的研究人員們一道,分享OCR領(lǐng)域的前沿進展及技術(shù)規(guī)?;瘧?yīng)用情況。
丁凱博士于CCIG學術(shù)論壇上分享智能圖像處理技術(shù)
丁凱博士認為,盡管OCR技術(shù)已走過一個世紀的發(fā)展,現(xiàn)今仍存在文檔圖像質(zhì)量退化嚴重、文字檢測及版面分析困難、非限定條件文字識別率低、結(jié)構(gòu)化智能理解能力差等亟待解決的問題。OCR技術(shù)的進階之路上,文檔圖像質(zhì)量的增強是重要的研究方向,需克服頁面彎曲、陰影遮擋、摩爾紋、圖片模糊等現(xiàn)代文本圖像處理中常見的干擾狀況。通過引入AI(人工智能)技術(shù),合合信息智能文字識別及圖像處理技術(shù)能夠幫助各應(yīng)用領(lǐng)域簡化下游文檔處理任務(wù),提升文字識別效率與準確性。
以彎曲矯正為例,丁凱博士介紹了基于文本行線擬合和坐標變換、基于文本行線優(yōu)化矯正的方法原理和優(yōu)缺點,并提到合合信息采用的基于位移場網(wǎng)絡(luò)學習的方法的系統(tǒng)架構(gòu),可有效解決多種彎曲文檔圖像的矯正問題。除此之外,在教育領(lǐng)域,合合信息“字跡擦除”技術(shù)融合了內(nèi)容切分、手寫字跡分離網(wǎng)絡(luò)、文檔質(zhì)量增強技術(shù),對復雜場景進行準確處理,實現(xiàn)作業(yè)及試卷筆記“一鍵擦除”。
“字跡擦除”功能演示:布滿字跡的試卷(左)與“擦除字跡”后的試卷(右)
另外一方面,文檔數(shù)字化流程的建立是加速企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵,也是技術(shù)落地中的痛點。為了更好地解決不同業(yè)務(wù)中存在的文檔版式繁雜、訓練樣本匱乏、模型定制化調(diào)優(yōu)周期長且效率低的問題,合合信息推出了TextIn Studio智能文字識別訓練平臺,可將底層資源、數(shù)據(jù)、模型訓練、集成部署和服務(wù)管理應(yīng)用多個模塊整合在一起,針對性解決各項問題的同時,建立業(yè)務(wù)流程之間的閉環(huán),實現(xiàn)模型自動化訓練和部署。
TextIn Studio生產(chǎn)出了大量不同場景的文檔數(shù)字化模型,涉及近百種文檔圖像預處理、文字識別與理解、文檔格式轉(zhuǎn)換等方面的服務(wù),較為全面地覆蓋了企業(yè)和個人工作生活相關(guān)的文檔類型。合合信息通過TextIn小程序發(fā)起了針對高校研究者群體需求發(fā)起的限時體驗活動,即高校的老師和學生注冊并綁定帶有“edu”后綴的教育郵箱后,每人一年可免費獲得100萬次的OCR服務(wù)。“希望這個活動能夠進一步推動OCR領(lǐng)域產(chǎn)業(yè)界和學術(shù)界的合作,支持開發(fā)者們以更低的門檻接觸到相關(guān)技術(shù),從而研發(fā)更多有價值的應(yīng)用,推動領(lǐng)域更好地發(fā)展。”丁凱博士說。
目前,合合信息相關(guān)智能文字識別及圖像處理技術(shù)已被應(yīng)用于公司旗下掃描全能王等C端APP中及行業(yè)解決方案中,輻射全球百余個國家和地區(qū)的億級用戶。據(jù)悉,“字跡擦除”功能已接入華為PixLab V1彩色噴墨多功能打印機。相關(guān)技術(shù)還在國際頂會ICPR、ICFHR等十余項競賽中獲得冠軍,并于CVPR、AAAI、ACL、ACM MM等國際頂會上發(fā)表。
合合信息參賽隊伍獲第三屆CSIG圖像圖形挑戰(zhàn)賽總決賽冠軍
大會還舉行了第三屆CSIG圖像圖形挑戰(zhàn)賽總決賽頒獎儀式。CSIG圖像圖形挑戰(zhàn)賽旨在促進我國圖像圖形技術(shù)及相關(guān)產(chǎn)業(yè)的發(fā)展和應(yīng)用,解決企業(yè)面臨的技術(shù)難題,幫助企業(yè)引入更多的優(yōu)秀人才。本次大賽吸引了來自高校、科研機構(gòu)、企業(yè)的上百支參賽隊伍參與。憑借在視覺關(guān)鍵信息理解層面的算法優(yōu)勢與多語言票據(jù)識別場景的實踐沉淀,合合信息與高校及企業(yè)生態(tài)伙伴組成的參賽隊伍繼獲得“中英文購物小票信息理解賽道”單項冠軍后,通過終輪現(xiàn)場比拼,榮獲CSIG圖像圖形技術(shù)挑戰(zhàn)賽總冠軍。
——————————————————————————————————————————
關(guān)于中國圖象圖形學學會:
中國圖象圖形學學會成立于1990年,是經(jīng)國家民政部批準成立的國家一級學會,由中國從事圖像圖形學基礎(chǔ)理論與應(yīng)用研究,軟、硬件技術(shù)開發(fā)及應(yīng)用推廣的專家學者和相關(guān)科技工作者組成。
關(guān)于合合信息:
合合信息是一家人工智能及大數(shù)據(jù)科技企業(yè),專注于智能文檔圖像處理、復雜場景文檔識別等智能文字識別技術(shù)研究。從2006年創(chuàng)立至今,堅持深耕智能文字識別應(yīng)用及商業(yè)大數(shù)據(jù)核心技術(shù)領(lǐng)域,通過C端、B端產(chǎn)品以及行業(yè)解決方案,為全球百余個國家和地區(qū)的億級用戶,銀行、證券、保險、制造等近30個行業(yè)的企業(yè)客戶提供創(chuàng)新的數(shù)字化、智能化服務(wù)。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )