当前位置:首页 > > 充电吧
[导读]关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享让有同样兴趣的人少走弯路。一、准备工作1、下载Tesseract-OCR引擎,注意要3.0以上才支持

关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享让有同样兴趣的人少走弯路。


一、准备工作

1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。

2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后,放到Tesseract-OCR项目的tessdata文件夹里面。

3、下载jTessBoxEditor,这个是用来训练字库的。

以上的几个在百度都能找到下载,就不详细讲了。

 

 

二、识别

1、进入cmd,进入到要识别的图片的路径下。

2、输入命令

1tesseract 图片名称 生成的结果文件的名称 字库

例如我的图片识别就是:

1tesseract test.jpg result -l chi_sim

识别完后会生成result.txt文件

当然啦效果不太理想。所以我们要训练自己的字库。

 

三、训练

1、将图片转换成tif格式,用于后面生成box文件。可以通过画图,然后另存为tif即可。

更改图片名字,这个是有要求的=。=

tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体 
比如我们要训练自定义字库 mjorcen字体名normal
那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。

 

2、生成box文件。

1tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

box文件和对应的tif一定要在相同的目录下,不然后面打不开。

 

3、打开jTessBoxEditor矫正错误并训练

打开train.bat

找到tif图,打开,并校正。

 

4、训练。

只要在命令行输入命令即可。

1tesseract  mjorcen.normal.exp0.jpg mjorcen.normal.exp0  nobatch box.train1unicharset_extractor mjorcen.normal.exp0.box

 

在这我明明已经矫正好了,但是还是有1个字符不能识别出来,报的错跟实际上完全没有相关性,不知道是不是bug,到后面的结果就是“园”字没有识别出来。

先不管,毕竟只有一个样本。

 

新建一个font_properties文件

里面内容写入 normal 0 0 0 0 0 表示默认普通字体

 

继续敲命令

1 2 3 4 5 6 7 8 9shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr     mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr     cntraining mjorcen.normal.exp0.tr

 

最后会生成五个文件,把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上normal.

如图:

 

命令行输入,合并五个文件:

1combine_tessdata normal.

得到训练好的字库。

 

四、测试

1、把 normal.traineddata 复制到Tesseract-OCR 安装目录下的tessdata文件夹中

 

2、识别命令:

1tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l normal

 

3、效果

 

对比:

 

 

总结:肯定要自己训练过后的字库识别效果好,接下来要把整个项目弄进android,还要研究怎么将多个字库合并成一个字库,因为我不可能一次训练完所有的图片文字的。到时候有什么成果了再分享。

 

更新:没有错误的话命令行的提示应该是这样的


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

纳祥科技推出太阳能+Type-C双充电自行车前灯方案,方案核心模块包含太阳能板、单片机、三极管、3颗LED灯珠与1200mAh电池,通过低功耗单片机与三极管驱动,支持强光/弱光/爆闪3种模式,高流明远射程,适配多种车型

关键字: 方案开发 电子方案 自行车前灯方案 纳祥科技

慕尼黑2025年9月11日 /美通社/ -- 当地时间9月9日,赛力斯动力在德国慕尼黑国际车展期间举办技术发布与交流会,正式在海外市场推出全新一代赛力斯超级增程、高效发动机和新一代分布式电驱动系统,同时与来自全球的汽车产...

关键字: 慕尼黑 分布式 发动机 新能源汽车

慕尼黑2025年9月11日 /美通社/ -- 高端智能电动汽车品牌问界(AITO)在2025年德国国际汽车及智慧出行博览会(IAA MOBILITY)上,正式发布了其最新全球产品阵容——专为中东市场深度本地化打造的AIT...

关键字: AI 智能驾驶 测试 生态系统

舍弗勒首次为中国头部车企大规模生产高压逆变砖 天津工厂一年内完成量产准备,逆变器模块性能参数显著提升 与合作伙伴罗姆半导体共研尖端碳化硅技术,效率更高、性能更优 模块化可扩展设计使逆变砖易于集成,可广泛...

关键字: 逆变 高压 逆变器 集成

舍弗勒以"专注驱动技术的科技公司"为主题亮相IAA MOBILITY 2025(B3馆B40展台) 合并纬湃科技后首次亮相IAA MOBILITY,展示拓展后的汽车产品组合 凭借在软件、...

关键字: 电气 软件 驱动技术 BSP

拉斯维加斯2025年9月11日 /美通社/ -- 在9月8日至11日举办的RE+ 2025展会上,全球综合储能解决方案供应商德赛电池(Desay Battery)全面展示了其创新成果,并宣布与深圳市华宝新能源股份有限公司...

关键字: 电池 电芯 人工智能 锂电

香港2025年 9月12日 /美通社/ -- 全球领先的互联网社区创建者 - 网龙网络控股有限公司 ("网龙"或"本公司",香港交易所股票代码:777)欣然宣布,其子公司My...

关键字: AI 远程控制 控制技术 BSP

慕尼黑2025年9月12日 /美通社/ -- 慕尼黑当地时间9月10日,在2025德国国际汽车及智慧出行博览会(IAA MOBILITY)上,国际独立第三方检测、检验和认证机...

关键字: 测试 慕尼黑 模型 HUBER

上海2025年9月12日 /美通社/ -- 近日,国际独立第三方检测、检验和认证机构德国莱茵TÜV大中华区(简称"TÜV莱茵")为上海...

关键字: 测试 信息安全 安全管理 开关

广州2025年9月12日 /美通社/ -- 9月11日,由国际独立第三方检测、检验和认证机构德国莱茵TÜV大中华区(简称"TÜV莱茵"...

关键字: 数字化 供应链 控制 电子
关闭