123,123,123

總覽

光學(xué)字符識(shí)別（OCR）是計(jì)算機(jī)視覺領(lǐng)域中廣泛使用的系統(tǒng)，了解如何為各種任務(wù)構(gòu)建自己的OCR，我們將利用OpenCV庫(kù)和Tesseract來構(gòu)建OCR系統(tǒng)。

介紹你還記得考試期間我們必須填寫正確答案的日子嗎？或者你還記得在開始第一份工作之前進(jìn)行的能力測(cè)驗(yàn)?zāi)兀课铱梢曰貞浧饖W林匹克競(jìng)賽和多項(xiàng)選擇測(cè)試，大學(xué)和組織會(huì)使用光學(xué)字符識(shí)別（OCR）系統(tǒng)對(duì)答卷進(jìn)行大量評(píng)分。老實(shí)說，OCR在廣泛的行業(yè)和功能中都有應(yīng)用，因此從掃描文檔（包括銀行對(duì)帳單，收據(jù)，手寫文檔，優(yōu)惠券等）到閱讀自動(dòng)駕駛汽車的路牌，都在OCR的范疇內(nèi)。OCR系統(tǒng)在幾十年前建造起來是非常昂貴和繁瑣的，但隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的進(jìn)步意味著我們現(xiàn)在可以建立自己的OCR系統(tǒng)了！

但是，建立OCR系統(tǒng)并不是一件容易的事，對(duì)于初學(xué)者來說，面臨著諸如圖像中的字體不同，對(duì)比度差，圖像中有多個(gè)對(duì)象等問題。因此，在本文中，我們將探討OCR任務(wù)的一些非常著名且有效的方法，以及如何自己實(shí)施。如果你不熟悉目標(biāo)檢測(cè)和計(jì)算機(jī)視覺，建議你先閱讀以下資源：基本目標(biāo)檢測(cè)算法的介紹https：／／www．a(chǎn)nalyticsvidhya．com／blog／2018／10／a－step－by－step－introduction－to－the－basic－object－detection－algorithms－part－1計(jì)算機(jī)視覺課程https：／／courses．a(chǎn)nalyticsvidhya．com／courses／computer－vision－using－deep－learning－version2目錄什么是光學(xué)字符識(shí)別（OCR）現(xiàn)實(shí)世界中流行的OCR應(yīng)用使用Tesseract OCR進(jìn)行文本識(shí)別文本檢測(cè)的不同方法什么是光學(xué)字符識(shí)別（OCR）首先，讓我們了解一下什么是OCR。OCR，或稱光學(xué)字符識(shí)別是一種識(shí)別圖像內(nèi)文本并將其轉(zhuǎn)換為電子形式的過程。這些圖像可以是手寫文字，文件，收據(jù)，名片等印刷文字，甚至是自然場(chǎng)景照片。OCR有兩個(gè)部分，第一部分是文本檢測(cè)，確定圖像中的文本部分，文本在圖像中的定位對(duì)于OCR的第二部分文本識(shí)別非常重要，其中文本是從圖像中提取出來的。結(jié)合使用這些技術(shù)可以從任何圖像中提取文本。

沒有什么是完美的，OCR也不例外。但是，隨著深度學(xué)習(xí)的到來，對(duì)這一問題有可能得到更好、更普遍的解決方案。在我們深入研究如何構(gòu)建自己的OCR之前，讓我們先看看OCR的一些流行應(yīng)用程序?，F(xiàn)實(shí)世界中流行的OCR應(yīng)用OCR在各行各業(yè)有著廣泛的應(yīng)用（主要是為了減少人工操作）。它已經(jīng)融入到我們的日常生活中，以至于我們幾乎沒有注意到它！但它肯定會(huì)努力帶來更好的用戶體驗(yàn)。

OCR常用于在手寫識(shí)別任務(wù)中提取信息。該領(lǐng)域正在進(jìn)行許多工作，也取得了一些非常重大的進(jìn)步。Microsoft提出了一個(gè)很棒的數(shù)學(xué)應(yīng)用程序，該應(yīng)用程序以手寫的數(shù)學(xué)方程式作為輸入，生成解決方案，并逐步解釋其工作原理。OCR越來越多地被各個(gè)行業(yè)用于數(shù)字化，以減少人工工作量。這使得從業(yè)務(wù)文檔，收據(jù)，發(fā)票，護(hù)照等中提取和存儲(chǔ)信息非常容易且高效，此外，當(dāng)你為KYC（Know Your Customer，了解客戶）上傳文檔時(shí)，OCR用于從這些文檔中提取信息并存儲(chǔ)它們以供將來參考。OCR還用于書籍掃描，它將原始圖像轉(zhuǎn)換為數(shù)字文本格式。許多大型項(xiàng)目，例如Gutenberg項(xiàng)目，Million Book Project和Google Books，都使用OCR掃描和數(shù)字化書籍并將作品存儲(chǔ)為檔案。銀行業(yè)也越來越多地使用OCR來歸檔與客戶相關(guān)的文書工作，例如入職資料，以輕松創(chuàng)建客戶資料庫(kù)，這顯著減少了上線時(shí)間，從而改善了用戶體驗(yàn)。此外，銀行使用OCR從支票中提取諸如帳號(hào)，金額，支票號(hào)碼之類的信息，以加快處理速度。

說到OCR的應(yīng)用，就必須提及它們?cè)?a href="http://m.ygpos.cn/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6_1.html" target="_blank" class="keylink">自動(dòng)駕駛汽車中的使用。自動(dòng)駕駛汽車在很大程度上依賴OCR來閱讀路標(biāo)和交通標(biāo)志，對(duì)這些標(biāo)志的有效理解可以使自動(dòng)駕駛汽車對(duì)行人和其他在道路上行駛的車輛保持安全。還有很多OCR應(yīng)用，例如車牌識(shí)別，將掃描的文檔轉(zhuǎn)換為可編輯的Word文檔等等。使用OCR進(jìn)行數(shù)字化顯然具有廣泛的優(yōu)勢(shì)，例如易于存儲(chǔ)和處理文本，更不用說可以應(yīng)用到此數(shù)據(jù)的大量分析了！OCR絕對(duì)是計(jì)算機(jī)視覺最重要的領(lǐng)域之一?，F(xiàn)在，讓我們看看最著名的和廣泛使用的文本識(shí)別技術(shù)之一——Tesseract。使用Tesseract OCR進(jìn)行文本識(shí)別Tesseract：https：／／tesseract－ocr．github．io／tessdoc／Documentation．htmlTesseract是一個(gè)開源的OCR引擎，最初是由HP（Hewlett－Packard）作為專有軟件開發(fā)的，但后來在2005年被開源，從那時(shí)起，谷歌就采用了這個(gè)項(xiàng)目并贊助它的開發(fā)。

123下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）