版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-彩色文字識別

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

字符識別系統(tǒng)OCR識別系統(tǒng)

OCR是OptcaI Character Recognition的簡稱,指光學(xué)字符識別技術(shù),是自動識別技術(shù)研究和應(yīng)用中的一個重要領(lǐng)域。

光學(xué)字符識別技術(shù)的工作原理是通過掃描儀或數(shù)碼相機等光學(xué)輸入設(shè)備獲取紙張上的文字圖片信息,采用光學(xué)的方式將文檔資料轉(zhuǎn)換成原始黑白點陣的圖像文件,利用各種模式識別算法分析文字形態(tài)特征,判斷出文字的標(biāo)準(zhǔn)編碼,通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,并按通用格式存儲在文本文件或者數(shù)據(jù)庫當(dāng)中,還可以利用文字處理或者編輯軟件或者進一步加工。通俗的說OCR實際上是讓計算機認(rèn)字,實現(xiàn)文字信息自動輸入,幫助人們低成本、快速度、高質(zhì)量地將文檔資料和各類紙介信息進行數(shù)字化,推進信息資源的開發(fā)和利用2。

OCR發(fā)展意義1.文字識別是中文信息錄入的快捷手段,由于漢字是非字母、非拼音化的文字,筆劃復(fù)雜多樣,人工鍵入速度慢而勞動強度大,計算機自動識別文字或語言方式解決了這一難題,能快速高效地將漢字輸入進計算機。

2.文字識別技術(shù)是提高辦公自動化水平的主要因素。辦公自動化就是要借助計算機來進行文檔的處理, 以代替人們?nèi)粘5霓k公活動,在現(xiàn)代社會,圖像信息占有較大的比重,存在大量文字信息,因此,文字的自動識別對圖像的處理有重要的意義。

3.文字識別技術(shù)豐富和完善了文字識別理論?,F(xiàn)在人們已可通過手寫文件經(jīng)OCR 產(chǎn)品的識別錄入計算機, 大大推動發(fā)展了文字識別理論。

4.文字識別是智能計算機智能接口的重要組成部分,智能計算機能認(rèn)識文字、圖像和景物,能聽懂語音、理解文字。視覺是智能計算機接受外界信息的主要手段,而識別文字是智能計算機必備的功能3。

識別方法文字識別一般包括文字信息的采集、信息的分析與處理、信息的分類判別等幾個部分。

信息采集將紙面上的文字灰度變換成電信號,輸入到計算機中去。信息采集由文字識別機中的送紙機構(gòu)和光電變換裝置來實現(xiàn),有飛點掃描、攝像機、光敏元件和激光掃描等光電變換裝置。

信息分析和處理 對變換后的電信號消除各種由于印刷質(zhì)量、紙質(zhì)(均勻性、污點等)或書寫工具等因素所造成的噪音和干擾,進行大小、偏轉(zhuǎn)、濃淡、粗細(xì)等各種正規(guī)化處理。

信息的分類判別 對去掉噪聲并正規(guī)化后的文字信息進行分類判別,以輸出識別結(jié)果。

文字識別方法 文字識別方法基本上分為統(tǒng)計、邏輯判斷和句法三大類。常用的方法有模板匹配法和幾何特征抽取法。

模板匹配法模板匹配法是將輸入的文字與給定的各類別標(biāo)準(zhǔn)文字(模板)進行相關(guān)匹配,計算輸入文字與各模板之間的相似性程度,取相似度最大的類別作為識別結(jié)果。這種方法的缺點是當(dāng)被識別類別數(shù)增加時,標(biāo)準(zhǔn)文字模板的數(shù)量也隨之增加。這一方面會增加機器的存儲容量,另一方面也會降低識別的正確率,所以這種方式適用于識別固定字型的印刷體文字。這種方法的優(yōu)點是用整個文字進行相似度計算,所以對文字的缺損、邊緣噪聲等具有較強的適應(yīng)能力4。

幾何特征抽取法幾何特征抽取法是抽取文字的一些幾何特征,如文字的端點、分叉點、凹凸部分以及水平、垂直、傾斜等各方向的線段、閉合環(huán)路等,根據(jù)這些特征的位置和相互關(guān)系進行邏輯組合判斷,獲得識別結(jié)果。這種識別方式由于利用結(jié)構(gòu)信息,也適用于手寫體文字那樣變型較大的文字5。

支持向量機文字識別一直是模式識別最重要的研究領(lǐng)域之一。經(jīng)過多年的研究,已經(jīng)取得了大量成果。但是,無約束的非特定人手寫漢字識別仍然被認(rèn)為是文字識別領(lǐng)域最困難的問題之一 ,其原因可以歸結(jié)為 : (1) 漢字規(guī)模大 。(2) 相似漢字較多, 且有些相似字差別極其細(xì)微。(3) 存在大量的不規(guī)則書寫變形。 由于(2) 、(3) 的存在 ,導(dǎo)致手寫漢字,特別是相似字在特征空間中的距離變小,使得普通的距離分類器的推廣能力變?nèi)酢?因此,如何補償手寫漢字的書寫變形,提高分類器的泛化和推廣能力,就成為漢字識別研究的關(guān)鍵問題之一。

而支持向量機作為一種新的機器學(xué)習(xí)方法,由于其建立在結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則上。而不僅僅是經(jīng)驗風(fēng)險最小,從而使得其具有較強的泛化推廣能力6。

應(yīng)用領(lǐng)域文字識別可應(yīng)用于許多領(lǐng)域,如閱讀、翻譯、文獻資料的檢索、信件和包裹的分揀、稿件的編輯和校對、大量統(tǒng)計報表和卡片的匯總與分析、銀行支票的處理、商品發(fā)票的統(tǒng)計匯總、商品編碼的識別、商品倉庫的管理,以及水、電、煤氣、房租、人身保險等費用的征收業(yè)務(wù)中的大量信用卡片的自動處理和辦公室打字員工作的局部自動化等。以及文檔檢索,各類證件識別,方便用戶快速錄入信息,提高各行各業(yè)的工作效率。