从pdf图片中抓取文字

发布时间：2023-08-11 10:05:29

从pdf图片中抓取文字
Home>今日一点,技术分析>从pdf图片中抓取文字

从pdf中抓取文字原理：
利用office的虚拟打印机MicrosoftOfficeDocumentImageWriter把图片或者pdf打印到tiff或者mdi格式的文件，然后关联使用MicrosoftOfficeDocumentImaging打开tiff或者mdi文件，然后选择“工具”菜单下的“使用ocr识别文本”，识别完成后，在选择“工具”下的，“将文本发送到word”（或者直接选择“将文本发送到word”，会提示你先进行ocr识别，然后会自动开始），最后将把整个PDF文件识别输出到word文件中。
原理就是这样子啦，操作也很简单，MicrosoftOfficeDocumentImaging的安装我就不说啦，早些时候已经说过啦，可以参考：windows的的墨水服务『office2007的MicrosoftOfficeDocumentImage安装』。
下边说说pdf文件中文字的识别
以文本形式保存的PDF文件：可以使用gmail发附件然后使用viewhtml查看或者acrobatreader直接选中文字部分复制粘贴到记事本中或者word中即可。
以图片形式存在的pdf文件：这样gmail的附件就无能为力啦，就用到MicrosoftOfficeDocumentImaging啦，不过这个貌似对中文支持的不好（我的office2007+xpsp2的环境），这个倒是个多面玲珑角色，可以搞定很多格式文档的转换。

加密的pdf文件：先解密在继续啦。
繁体pdf文件：先识别到word，然后利用word的“工具”－－“语言”－－－“中文繁简转换”
上边说过这个MicrosoftOfficeDocumentImaging对中文的图片中的文字识别的可能有问题（直接崩溃啦嘛），so昨晚我抓去图片中的文字就不是使用的这个MicrosoftOfficeDocumentImaging，而是使用的尚书七号，如果需要可以到这里下载地址：http://cid-70082f3907228a49.skydrive.live.com/self.aspx/soft/shangshuqihao-ocr-zhuceban.zip首先把pdf转换为图片bmp，jpg的都行，也可以用photoshop来搞成图片（不过注意图片质量一定要好啊）。然后使用尚书七号打开，具体步骤：
工具菜单——版面分析（自动分析后若有错误可以自己用鼠标修改）——开始识别——纠错（有错误就改吧，鼠标选中就修改啦！！）——输出到指定格式——保存为txt的文本就是啦（根据自己需要啦有txt，rtf,htm,xls）。

从pdf图片中抓取文字

从pdf图片中抓取文字

推荐内容

相关推荐

个人检视问题清单及整改措施

九年级语文下册第六单元第23课《愚公移山》说课稿(新版)新人教版

情话关于情话的句子

安全验证

地球水资源总量与地球大小的对比图

走进你的心灵

个人检视问题及整改措施清单

安全验证

选修2《海洋地理》教材介绍

红尘摆渡