如果您選擇Ocr軟件,目的是用來識(shí)別掃描儀出來打印字體,推薦還是選用知名的商業(yè)Ocr。
如果您要識(shí)別屏幕上顯示的漢字,Mini Ocr是一個(gè)比較不錯(cuò)的選擇。真誠地希望您在使用中,能喜歡上它。
英文識(shí)別有一些開放源碼的軟件,我看過的軟件,主要采取兩種識(shí)別方法:基于規(guī)則的方法,和采用神經(jīng)網(wǎng)絡(luò)方法。
Mini Ocr進(jìn)行漢字識(shí)別的策略:
1) 采用復(fù)合特征的分類方法。
2) 字符集選擇3755個(gè)一級(jí)漢字。
3) 字體選擇最常用的宋體。
4) 字號(hào)選擇從小五號(hào)到一號(hào)漢字,主要針對(duì)20個(gè)點(diǎn)之內(nèi)的小字體。
5) 英漢混排時(shí),漢語優(yōu)先。
6) 漢字粘連時(shí),進(jìn)行動(dòng)態(tài)優(yōu)化切分。
展望與下一步的開發(fā)計(jì)劃:
1) 重新優(yōu)化英文識(shí)別的算法;
2) 對(duì)英文粘連的切分算法進(jìn)行調(diào)整;
3) 移植進(jìn)入Linux;
主要用于識(shí)別圖像文件之中,出現(xiàn)的漢字顯示字體。Ocr的中文含意是光學(xué)字符識(shí)別。