问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

请问我应该怎样把图片上的字弄到word里面去编辑?因为图片上的字太多

发布网友 发布时间:2022-04-29 01:12

我来回答

1个回答

热心网友 时间:2022-06-27 06:38

  用OCR软件就可以的,先给你介绍一个:
  Mini Ocr 汉字显示字体识别软件

  首先声明,我不是一个OCR领域的专家。我的经验来自我写Mini Ocr软件的过程。

  ―― 马飞涛

  关于Mini Ocr 软件

  本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中,出现

  的汉字显示字体。Ocr的中文含意是光学字符识别。

  为什么叫Mini呢?因为现有的识别汉字的商业Ocr软件,动辄二三十兆,而本软件解

  压后,也不过三兆多,身材比较纤小,再加上本软件主要用于识别字体比较小的汉字,所

  以叫Mini,中文的发音是“迷你”,中文含义是超小型。

  下载 汉字识别显示字体识别软件

  (下载地址: http://www.mbntv.com/iflower/miniocr.zip )

  软件大小:2.7M

  既然有了商业Ocr软件,为什么还要开发这个软件?

  不同于商业Ocr软件,本软件是免费的,可以自由使用。第二个不同之处,本软件的

  识别对象是屏幕出现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”。二者有什

  么不同呢?最重要的一点: 扫描出来的打印汉字的高度和宽度一般都在30多个像素点之

  上,这是我用画图软件,打开某个商业Ocr的samples\sample1.tif,然后一点一点数出

  来的。从文件名和目录名的中文含意可以看出,这个点数应该是一个典型值。那么,如果

  用商业Ocr识别屏幕上出现的小五号字,汉字的高度是12个像素点,会出现什么情况呢?

  测试方法:用记事本随便写几行汉字,设置字体为小五号字。这大概是看着还算舒服

  的最小号的汉字字体了(高度是12个像素点),如果再小,字体就很难看了。然后,按拷

  屏键PrtSc,把屏幕的图像拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格式。

  然后,我找了两个国内最著名的Ocr软件进行测试,结果让*吃一惊,识别率几乎为零。

  把图像放大两倍,再测试,结果仍然很不理想,大概也只有百分之二三十的样子。

  开发Mini Ocr软件的由来

  我在开发护花使者反黄图像识别软件的时候,遇到有些图像里,嵌有某些文字,如果能

  把文字识别出来,图像的含义就很容易让计算机理解了。预算有限,我连扫描仪都舍不得

  买,就更别想买商业Ocr的开发包了,大概几十万,或者更多,或者别人压根就不卖。况且

  它们的识别率对小字体几乎为零,不符合我的要求。看来,只好自力更生,重新写一个了。

  开发Mini Ocr的历程

  经过三个多月的努力,终于诞生了这款Mini Ocr 软件。第1个月做出了汉字识别的

  核心模块,第2个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持,

  第三个月继续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面。

  Mini Ocr的软件架构

  为了让更多的人能使用到这个软件,我在windows系统下,采用VC进行编程,界面当

  然只好用MFC写了。软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个

  CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮助信息;右上角

  是一个CView,用来显示要识别的图像;右下角是一个CEditView,用来存放识别出来的文

  字。识别部分采用了工作者线程,以避免显示界面的主线程僵掉。识别部分是整个软件的

  核心,与操作系统无关,可以单独摘出来放在dos窗口里跑,也可以移植到Linux系统中跑。

  汉字识别软件的难点所在:

  英文识别有一些开放源码的软件,我看过的软件,主要采取两种识别方法:基于规则

  的方法,和采用神经网络方法。而这两种方法,在识别汉字时,都不宜采用。因为汉字数

  目众多,最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法,需要对

  三千多个汉字,逐一人工写出分类规则,工作量太大,我一个人无法完成;如果采用神经

  网络的方法,这么多汉字,我不敢想象,需要多少层网络和神经节点呀!如果采用网格法,

  抗位移的效果太差;而采用不变矩法,识别人和入,土和士,相似度又难于控制。除此之

  外,汉字切分也是一大难题。英文宽度大概只有汉字一半,标点符号大概只有汉字三分之

  一宽,数字大概只有四分之一的宽度。而汉字本身又有二分字,和三分字。某些字,如“啊”,

  字体小时可能是独体字,字体大些,变为二分字,字体再大,又变为三分字。加上汉字与

  汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚

  至比汉字识别模块的算法还要复杂得多。为了克服这些难点,并加快识别速度,我在算法

  设计时,采用了一些优化和简化的策略。经过实践检验,证明行之有效。

  Mini Ocr进行汉字识别的策略:

  1) 采用复合特征的分类方法。

  2) 字符集选择3755个一级汉字。

  3) 字体选择最常用的宋体。

  4) 字号选择从小五号到一号汉字,主要针对20个点之内的小字体。

  5) 英汉混排时,汉语优先。

  6) 汉字粘连时,进行动态优化切分。

  7) 识别前,先进行页面切分,把页面分割成一个一个的文字段落,擦除图形块,保留文字块。按照文字块先后顺序进行识别,以期处理图文混排的页面时,能达到更好的识别效果,并排除图形的干扰,加快文字的识别速度。

  展望与下一步的开发计划:

  1) 重新优化英文识别的算法;

  2) 对英文粘连的切分算法进行调整;

  3) 移植进入Linux;

  选择Ocr软件的建议:

  如果您选择Ocr软件,目的是用来识别扫描仪出来打印字体,推荐还是选用知名的商业Ocr。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
PCR有哪些分类? 不鸣则已 一鸣惊人的三个星座 电动车加装蓝牙音箱怎么接线 怎么把QQ同步助手卸载掉?简直就是垃圾,什么没操作就直接给安装上了,怎... 怎么把QQ同步助手卸载掉?简直就是流氓软件。什么东西没经过我点‘’同 ... excel表如何将相间隔的不同两行组合在一起,成为一行? excel工作表如何对行各自组合 考科目一自己去还是驾校统一去 科目一是自己考还是在驾校 社保转移后,新单位没要转移单,只要了身份证,是不是就可以办理了 什么是社保转移 红楼梦 林黛玉和甄英莲(香菱)都是书香门第的富家小姐 这个贾雨村是不是胆小啊? 目前国产的工业机器人品牌都应用在哪些方面? 2019火爆小吃 百家号视频可以光上身么 欲钱去看神态斐然的动物 请问糯米糍跟糍粑是不是一样的吖? 怎么把别人图片上的文字删除在把自己想写的文字输入上去?谢谢!(图片或文字和图片)我用的是word。 word2003里面擦除的作用是什么?怎么用擦除?我想把word里面图片里不需要的东西弄掉 怎么弄? 百家号老是说我的文章低俗,怎么办? 左边一个口右边一个口念什么字 指甲内部空心变黄变厚 栀子花最近叶子发黄,还不停的掉叶子是什么情况? 手机截屏功能怎么用使用? vue脚手架获取元素节点设置css为什么没反应 一个荔枝通常有几克? 一斤糯米能做多少斤糍粑饭 口最读什么 “幸运”、“陶醉”、“忧心忡忡”、“书香门第”的意思 ...有缕缕书香弥漫两个书香意思不一样书香门第指什么指什么 梦见,警察当场抓住了一伙偷车贼,什么意思? 栀子花叶子陆续发黄后掉叶子怎么办? 八一,我的快递包裹寄送到八一,那我该怎么填写收货地址呢? 一些词语的来历 口念是什么字 探索者cad弹跳的原因 我得栀子花叶子全都黄掉了,怎么办 画cad的时候鼠标为什么一直乱跳 栀子花为什么叶子发黄老掉 中通快递的收货地址有哪些? 怎么打车最便宜?一号专车有优惠么? 荣耀50语音截屏 脚指甲里里面变黄,而且是空的.指甲表层变厚,有白色的肉累装东西,请问是什么症状?. 中华文化博大精深,倾尽天下的意思是什么? 口加㒰念什么? 我一个朋友叫我,糯米糍~ 是什么意思? 栀子花叶黄掉叶,怎么回事? CAD鼠标总是移不到想要的点,一直在晃,捕捉开了也一样,关了也一样,不知道怎么回事? 在学校买东西,快递收货地址怎么写? 口加麦念什么 栀子花的叶子发黄掉落是什么原因?