最棒的在线中文OCR软件-评介
This is the Chinese language version of last month’s Best Chinese OCR software review blog post.
英文的OCR很难,是吗?那么试一试中文的吧!本文是个人针对中英文OCR软件的评介。评介完OCR在线的英文功能之后,我发现5个OCR意料外的结果。现在再回头看看OCR中文字体的软件。
中文的OCR为什么会那么困难呢?
相较于英文或是德文,为什么中文的OCR会更难呢? 光学字符识別本身还有技术上的困难。这个尚未被解决的技术问题,也是终端用户目前无法顺畅地使用此软件的原因。英文OCR 比较指标的结论好坏参半。但是中文的OCR将比英文OCR的挑战更深一层。原因如下:
- 字的数量:一般西洋文字的字母大约在24到30個左右,而中文的OCR软件要学的就不止这个数了。最起码中文OCR就必须知道至少六千七百六十三个标准GB-2312的简体字,还要再加上差不多五千个繁体字。所以说中文OCR最少也要能够识别一萬个字才行。更何况在英文OCR里不可能发生的情况会出现在中文里。例如;中文里极罕见的字因为资料库没档案而无法识别。
-
在中文OCR里,软件每新增一个新字时,错误吻合的可能性也相对增加。也因此局限了中文OCR的准确度
- 中文一个字(或两个字)就等于一个英文词。例如: Mobile Phone =手机 。以这个例子来说2个中文字就等于11个英文字母。就资讯密度而言,中文文字比英文文字高出很多了。这也意味着中文字体大小需要更多的像数单位。一般低极限的西方文字OCR需要15個像数单位,東亚语言则须要20個像数单位。
1. 低品质的中文扫描器(300dpi)
Test 1: Chinese OCR, 300dpi
OCR Service | Result | Output (Excerpt) |
---|---|---|
Abby Finereader | 100% | 在中国,餐厅里的菜通常很特别, |
Google Docs OCR | 100% | 在中國,餐斤里的菜通常很特別, |
OnlineOCR | 100% | 在中国,餐厅里的菜通常很特别, |
i2 OCR | Good | 在中国, 餐厅里的菜通常壕艮特另u, |
NewOCR | 100% | 在中国, 餐厅里的菜通常很特别, |
第一个测试是利用高品质的扫描器扫描一篇杂志文章。所有能测试中文的OCR软件表现都不错,大部分没错误(100%),一部分几乎没错误(good)。但我要声明那些英文OCR软件没中文辅助的并不在这篇评介里。
2. 低品质的中文扫描器(100dpi)
Test 2: Chinese OCR, 100dpi Scan
OCR Service | Result | Output (Excerpt) |
---|---|---|
Abby Finereader | Good | 在中“,枝厅里的芡通常很持别 |
Google Docs OCR | Good | 在中山,餐訂里的菜通常很特別, |
OnlineOCR | Good | 在中囚,各厅里的菜通常很特别 |
i2 OCR | Fail | 在中山l 鲁汀里的菜通常很牺易ul, |
NewOCR | Poor | 在中凹. 稷汀呈的菜逆常很持别l |
100dpi的扫描器扫描出来的文章即便整体语义模糊,但还是能读得通。对OCR系统而言,前三个软件扫描出来的结果只能够得上及格,而一个是根本无法用。
3. 最低品质的中文扫描器(75dpi)
Test 3: Chinese OCR, 75dpi Scan []
OCR Service | Result | Output (Excerpt) |
---|---|---|
Abby Finereader | Fail | (no text) |
Google Docs OCR | Fail | (no text) |
OnlineOCR | Fail | 往中工肠泞王的共诵常很特别 |
i2 OCR | Fail | 仕申重. g厅虫的翼矗薰蟹麟颤」, |
NewOCR | Fail | 仨中重. 器焘虫的翼邃篱氰麝蒽上 |
测试的结果显示扫描出来的文章,读者虽然能读每个字但是文章语意全然不通。所有测试的软件都不及格。
4. 智慧型手机影像
Test 4: Smartphone camera
OCR Service | Result | Output (Excerpt) |
---|---|---|
Abby Finereader | Good | 在中国,说厅里的菜通常很特別, |
Google Docs OCR | Fail | OCR not trigged |
OnlineOCR | Good | 在中国,偿厅里的菜通常很特别, |
i2 OCR | Fail | 在口口五, 餐厅里的粟遇常抒艮持另u, |
NewOCR | Good | 在中国, 餐厅里的菜通常很特别, |
曾用过手机扫描事物吗?我想大部分的人都用过而且操作简单。三款手机呈递出的影像转换文字效果,虽然有出现背景偏黄、語意有些许程度上的模糊外,整体来说是及格的。令人吃惊的是Google OCR 竟然落榜:原因是Google 文件已经没有专用的 “启动OCR”按键,而自动OCR功能则是无法扳机。
5/6: 中文电影荧幕字幕
这不是个众所皆知的OCR测试。这里要面对的挑战是荧幕背景。普通的OCR系统非常困难将荧幕背景跟文字做区分。
Test 5: Movie Subtitle 1
OCR Service | Result | Output (Excerpt) |
---|---|---|
Abby Finereader | Poor | 1 ^跳,彳II见上面的字吗 |
Google Docs OCR | Poor | 行得現上面的字 |
OnlineOCR | Fail | ).ir-iv一目日口 |
i2 OCR | Fail | (no text) |
NewOCR | Poor | 唰 得见上面的学吗 |
字幕1: 字幕的背景是綠色的。全部的OCR软件都无法正确的读取。不过至少Abbyy,Finereader,Google OCR,跟NewOCR 还能侦测到几个正确的字。
Test 6: Movie Subtitle 2
OCR Service | Result | Output (Excerpt) |
---|---|---|
Abby Finereader | Fail | (no text) |
Google Docs OCR | Fail | (no text) |
OnlineOCR | Fail | .叫口圈团口睡鼠喻戒… |
i2 OCR | Fail | (no text) |
NewOCR | Fail | 莪问大z 之… > .二_… |
字幕2:荧幕上是街景,字幕的背景是灰色的。即便是较大的字体,所有的OCR软件都无法辨识文字。.
在我二月份的OCR评介中曾提到Abbyy OCR 在辩读气体仪表器读数時,表现非常好。所以在这次的评价里,对于它的结果感到意外。不过这次的评价我先用了Abbyy FineReader 而不是 Abbyy Cloud SDK软件,因为Abbyy FineReader使用简单而且在先前测试的识别等级并无明显的差异。就是因为对Abbyy FineReader 这次意外的结果, 所以我又用了Abbyy Cloud SDK 做了同样的电影字幕辨识。测试结果:Abbyy Cloud SDK 似乎具备有较强力的识别器及(或)背景删除的功能。至少它识别了一部分字幕1跟2里的字。我只是很好奇的想知道为什么所有的OCR软件都遗漏了这两个字幕的前半段。
总结-最棒的在线中文OCR软件
Ranking | Score | Scan1 | Scan2 | Scan3 | Mobile | Sub1 | Sub1 |
---|---|---|---|---|---|---|---|
Abbyy FineReader | 8 | ++ | + | - | + | 0 | - |
OnlineOCR | 7 | ++ | + | - | + | - | - |
Google Docs OCR | 6 | ++ | + | - | - | 0 | - |
NewOCR | 6 | ++ | 0 | - | + | 0 | - |
i2 OCR | 2 | + | - | - | - | - | - |
从英文文字的光学字符识别(OCR)的角度来评论,Google的OCR 功能不但使用上令人失望而且拙涩。本篇评介中的前三名软件,排名第一的是Abbyy, 第二名是目前线上最好且免费的无名软件OnlineOCR。Google 和 NewOCR 则并列第三。结论是在这篇中文文字OCR评介里所发现的意外,一点也不意外。也就是说:那几个在英文OCR表现好的软件,同时在中文的OCR也表现一样好。