近年來,學(xué)生黨們擁有了一款新的學(xué)習(xí)神器——拍照搜題。當(dāng)遇到不會做的題目時,只需要對著題目拍照,手機(jī)中就會出現(xiàn)這道題目的詳細(xì)解答思路和答案。
“拍照搜題”背后的黑科技就是光學(xué)字符識別技術(shù),即OCR。OCR是指電子設(shè)備,例如掃描儀或相機(jī)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別的方法將形狀翻譯成計算機(jī)文字的過程。
OCR的應(yīng)用領(lǐng)域十分廣泛。最早為我們熟知的“哪里不會點(diǎn)哪里”的點(diǎn)讀機(jī)就應(yīng)用了OCR。點(diǎn)讀機(jī)的點(diǎn)讀筆中裝有一個掃描文字的攝像頭,當(dāng)點(diǎn)讀筆接觸到書本后,便可將文字內(nèi)容識別和提取。
作為常用的一款辦公軟件,掃描全能王可以實(shí)現(xiàn)“圖片轉(zhuǎn)文字”的功能。軟件可以識別各種文件類型中的文字信息,這是非常典型的OCR技術(shù)的應(yīng)用。
目前,文本識別分為以下幾類:
·通用文字識別:一般是指如PDF等不規(guī)則文檔類的識別。
·卡證識別:包括身份證、銀行卡、營業(yè)執(zhí)照、名片、護(hù)照、港澳通行證、戶口本、駕駛證、行駛證等等。
·票據(jù)識別:包括增值稅發(fā)票、定額發(fā)票、火車票、出租車票、行程單、保單、銀行單據(jù)等等。
·其他:如車牌、車輛合格證、印章檢測等等。
隨著分類的不斷拓展,OCR技術(shù)的應(yīng)用場景也越來越廣泛,以下是幾個應(yīng)用較為成熟的領(lǐng)域:
·遠(yuǎn)程身份認(rèn)證:結(jié)合OCR和人臉識別技術(shù),實(shí)現(xiàn)用戶證件信息的自動錄入,并完成用戶身份驗(yàn)證。應(yīng)用于金融保險、社保、O2O等行業(yè),有效控制業(yè)務(wù)風(fēng)險。
·內(nèi)容審核與監(jiān)管:自動識別圖片、視頻中的文字內(nèi)容,及時發(fā)現(xiàn)涉黃、涉暴、政治敏感、惡意廣告等不合規(guī)內(nèi)容,規(guī)避業(yè)務(wù)風(fēng)險,大幅節(jié)約人工審核成本。
·紙質(zhì)文檔票據(jù)電子化:通過OCR實(shí)現(xiàn)紙質(zhì)文檔資料、票據(jù)、表格的自動識別和錄入,減少人工錄入成本,提高輸入效率。
針對上述的場景,基于深度學(xué)習(xí)的技術(shù)而言,訓(xùn)練數(shù)據(jù)的數(shù)量很大程度上影響了技術(shù)效果。
數(shù)據(jù)堂作為深耕于AI數(shù)據(jù)領(lǐng)域近10年的人工智能數(shù)據(jù)服務(wù)提供商,一直致力于為全球人工智能企業(yè)提供專業(yè)的數(shù)據(jù)服務(wù)。
依托自身的數(shù)據(jù)優(yōu)勢以及豐富的數(shù)據(jù)處理經(jīng)驗(yàn),數(shù)據(jù)堂推出了系列OCR標(biāo)注及轉(zhuǎn)寫數(shù)據(jù),為相關(guān)技術(shù)應(yīng)更廣泛的落地提供助力。
數(shù)據(jù)涵蓋8種語言、多種場景、不同拍攝角度、不同拍攝距離、不同光照條件。在標(biāo)注方面,標(biāo)注行級文本的四邊形框,行級文本轉(zhuǎn)寫。
四邊形框頂點(diǎn)偏差不超過五個像素為正確檢測,檢測框精度不低于95%,文本轉(zhuǎn)寫精度不低于95%,該數(shù)據(jù)可用于多國語言O(shè)CR任務(wù)。
數(shù)據(jù)涵蓋12種語言(6種亞洲語、6種歐洲語),包括商店牌匾、站牌、海報、車票、路標(biāo)、漫畫、井蓋畫、提示語、警示語、包裝說明、菜單、建筑物標(biāo)志等多種自然場景。
在標(biāo)注方面,標(biāo)注行級文本的四邊形框,行級文本轉(zhuǎn)寫,四邊形框頂點(diǎn)偏差不超過五個像素為正確檢測,檢測框精度不低于97%,文本轉(zhuǎn)寫精度不低于97%。
數(shù)據(jù)包括自然場景圖片2,056張,互聯(lián)網(wǎng)圖像1,103張,文本圖像347張。在標(biāo)注方面,行級內(nèi)容用行級四邊形框標(biāo)注、行級內(nèi)容轉(zhuǎn)寫;豎列內(nèi)容用豎列四邊形框標(biāo)注、豎列內(nèi)容轉(zhuǎn)寫。數(shù)據(jù)可用于多場景下的印地語識別、印地語拍照翻譯等任務(wù)。
數(shù)據(jù)包括自然場景圖片258張,互聯(lián)網(wǎng)圖像2,553張,文本圖像2,184張。在標(biāo)注方面,行級內(nèi)容用行級四邊形框標(biāo)注、行級內(nèi)容轉(zhuǎn)寫;豎列內(nèi)容用豎列四邊形框標(biāo)注、豎列內(nèi)容轉(zhuǎn)寫。數(shù)據(jù)可用于多種場景下的越南語識別、越南語拍照翻譯等任務(wù)。
相比物體檢測識別,OCR由于包含傾斜文本框、低分辨率文字和文本版面多樣化的情況,因此OCR數(shù)據(jù)標(biāo)注具有特殊性,標(biāo)注成本更高。
數(shù)據(jù)堂的數(shù)加加Pro標(biāo)注平臺支持私有化部署,能夠幫助企業(yè)快速、安全的對人工智能數(shù)據(jù)進(jìn)行標(biāo)注,為企業(yè)提供更專業(yè)、更安全的數(shù)據(jù)基礎(chǔ)設(shè)施。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )