最棒的在线中文OCR软件-评介

OCR (光学字符识别 in Chinese) on Chinese documents and movies
OCR (光学字符识别 in Chinese) on Chinese scans and movie subtitles

This is the Chinese language version of last month’s Best Chinese OCR software review blog post.
英文的OCR很难,是吗?那么试一试中文的吧!本文是个人针对中英文OCR软件的评介。评介完OCR在线的英文功能之后,我发现5个OCR意料外的结果。现在再回头看看OCR中文字体的软件。

中文的OCR为什么会那么困难呢?

相较于英文或是德文,为什么中文的OCR会更难呢? 光学字符识別本身还有技术上的困难。这个尚未被解决的技术问题,也是终端用户目前无法顺畅地使用此软件的原因。英文OCR 比较指标的结论好坏参半。但是中文的OCR将比英文OCR的挑战更深一层。原因如下:

  1. 字的数量:一般西洋文字的字母大约在24到30個左右,而中文的OCR软件要学的就不止这个数了。最起码中文OCR就必须知道至少六千七百六十三个标准GB-2312的简体字,还要再加上差不多五千个繁体字。所以说中文OCR最少也要能够识别一萬个字才行。更何况在英文OCR里不可能发生的情况会出现在中文里。例如;中文里极罕见的字因为资料库没档案而无法识别。
  2. 在中文OCR里,软件每新增一个新字时,错误吻合的可能性也相对增加。也因此局限了中文OCR的准确度

  3. 中文一个字(或两个字)就等于一个英文词。例如: Mobile Phone =手机 。以这个例子来说2个中文字就等于11个英文字母。就资讯密度而言,中文文字比英文文字高出很多了。这也意味着中文字体大小需要更多的像数单位。一般低极限的西方文字OCR需要15個像数单位,東亚语言则须要20個像数单位。

1. 低品质的中文扫描器(300dpi)

Test 1: Chinese OCR, 300dpi

OCR Service Result Output (Excerpt)
Abby Finereader 100% 在中国,餐厅里的菜通常很特别,
Google Docs OCR 100% 在中國,餐斤里的菜通常很特別,
OnlineOCR 100% 在中国,餐厅里的菜通常很特别,
i2 OCR Good 在中国, 餐厅里的菜通常壕艮特另u,
NewOCR 100% 在中国, 餐厅里的菜通常很特别,

第一个测试是利用高品质的扫描器扫描一篇杂志文章。所有能测试中文的OCR软件表现都不错,大部分没错误(100%),一部分几乎没错误(good)。但我要声明那些英文OCR软件没中文辅助的并不在这篇评介里。

2. 低品质的中文扫描器(100dpi)

Test 2: Chinese OCR, 100dpi Scan

OCR Service Result Output (Excerpt)
Abby Finereader Good 在中“,枝厅里的芡通常很持别
Google Docs OCR Good 在中山,餐訂里的菜通常很特別,
OnlineOCR Good 在中囚,各厅里的菜通常很特别
i2 OCR Fail 在中山l 鲁汀里的菜通常很牺易ul,
NewOCR Poor 在中凹. 稷汀呈的菜逆常很持别l

100dpi的扫描器扫描出来的文章即便整体语义模糊,但还是能读得通。对OCR系统而言,前三个软件扫描出来的结果只能够得上及格,而一个是根本无法用。

3. 最低品质的中文扫描器(75dpi)

Test 3: Chinese OCR, 75dpi Scan [Chinese OCR]

OCR Service Result Output (Excerpt)
Abby Finereader Fail (no text)
Google Docs OCR Fail (no text)
OnlineOCR Fail 往中工肠泞王的共诵常很特别
i2 OCR Fail 仕申重. g厅虫的翼矗薰蟹麟颤」,
NewOCR Fail 仨中重. 器焘虫的翼邃篱氰麝蒽上

测试的结果显示扫描出来的文章,读者虽然能读每个字但是文章语意全然不通。所有测试的软件都不及格。

4. 智慧型手机影像

Test 4: Smartphone camera  Chinese image OCR

OCR Service Result Output (Excerpt)
Abby Finereader Good 在中国,说厅里的菜通常很特別,
Google Docs OCR Fail OCR not trigged
OnlineOCR Good 在中国,偿厅里的菜通常很特别,
i2 OCR Fail 在口口五, 餐厅里的粟遇常抒艮持另u,
NewOCR Good 在中国, 餐厅里的菜通常很特别,

曾用过手机扫描事物吗?我想大部分的人都用过而且操作简单。三款手机呈递出的影像转换文字效果,虽然有出现背景偏黄、語意有些许程度上的模糊外,整体来说是及格的。令人吃惊的是Google OCR 竟然落榜:原因是Google 文件已经没有专用的 “启动OCR”按键,而自动OCR功能则是无法扳机。

5/6:  中文电影荧幕字幕

这不是个众所皆知的OCR测试。这里要面对的挑战是荧幕背景。普通的OCR系统非常困难将荧幕背景跟文字做区分。

Test 5: Movie Subtitle 1 Chinese Movie OCR

OCR Service Result Output (Excerpt)
Abby Finereader Poor 1 ^跳,彳II见上面的字吗
Google Docs OCR Poor 行得現上面的字
OnlineOCR Fail ).ir-iv一目日口
i2 OCR Fail (no text)
NewOCR Poor 唰 得见上面的学吗

字幕1: 字幕的背景是綠色的。全部的OCR软件都无法正确的读取。不过至少Abbyy,Finereader,Google OCR,跟NewOCR 还能侦测到几个正确的字。

Test 6: Movie Subtitle 2 Chinese OCR

OCR Service Result Output (Excerpt)
Abby Finereader Fail (no text)
Google Docs OCR Fail (no text)
OnlineOCR Fail .叫口圈团口睡鼠喻戒…
i2 OCR Fail (no text)
NewOCR Fail 莪问大z 之… > .二_…

字幕2:荧幕上是街景,字幕的背景是灰色的。即便是较大的字体,所有的OCR软件都无法辨识文字。.

Abby Cloud SDK works better than Abbyy FineReader for complex backgrounds
Abbyy Cloud SDK works better than Abbyy FineReader for complex backgrounds. So for test 5 and 6 the Abbyy Cloud SDK was used.

在我二月份的OCR评介中曾提到Abbyy OCR 在辩读气体仪表器读数時,表现非常好。所以在这次的评价里,对于它的结果感到意外。不过这次的评价我先用了Abbyy  FineReader 而不是 Abbyy Cloud SDK软件,因为Abbyy  FineReader使用简单而且在先前测试的识别等级并无明显的差异。就是因为对Abbyy  FineReader 这次意外的结果, 所以我又用了Abbyy Cloud SDK 做了同样的电影字幕辨识。测试结果:Abbyy Cloud SDK 似乎具备有较强力的识别器及(或)背景删除的功能。至少它识别了一部分字幕1跟2里的字。我只是很好奇的想知道为什么所有的OCR软件都遗漏了这两个字幕的前半段。

总结-最棒的在线中文OCR软件

Ranking Score Scan1 Scan2 Scan3 Mobile Sub1 Sub1
Abbyy FineReader 8 ++ + - + 0 -
OnlineOCR 7 ++ + - + - -
Google Docs OCR 6 ++ + - - 0 -
NewOCR 6 ++ 0 - + 0 -
i2 OCR 2 + - - - - -

从英文文字的光学字符识别(OCR)的角度来评论,Google的OCR 功能不但使用上令人失望而且拙涩。本篇评介中的前三名软件,排名第一的是Abbyy, 第二名是目前线上最好且免费的无名软件OnlineOCR。Google 和 NewOCR 则并列第三。结论是在这篇中文文字OCR评介里所发现的意外,一点也不意外。也就是说:那几个在英文OCR表现好的软件,同时在中文的OCR也表现一样好。