pdf识别文字处理(pdf ocr文字识别软件)
有的小伙伴经常会被PDF,图片等内容给难为住,需要翻译或者是需要使用内容,但是内容又太多,挨个敲太费时间,也太累了,别着急,下面来点提高生产力的东西。干货献上,我先干了这杯
作为测试使用,首先,使用Photoshop制作一个内容为图片的PDF文档,作为原始文档。偷个懒,直接度娘了一下毕业生主题曲(Scarborough Fair)的歌词。
利用PS快速做成图片
并直接转换成PDF文件
输入网址,www.newocr.com ,进入到网站主界面
在线解析的主页
可以看到主界面简单明了,选择文件,还有需要解析的PDF的语言,支持的语言种类还是蛮多的。
可以选择需要解析的语言
此处为支持解析的文件格式。
支持的文件格式
点击上传文件,选择要编译的PDF文件和PDF内容的语言种类,
选择文件上传
Upload为上传,Upload OCR为上传并解析,若是需要定义后编辑选择upload,若是只想解析出来,就选择Upload OCR,此处只选择Upload
点击上传
OCR为开始转换,下面虚线框内的为需要转换的内容范围。点击OCR
转换与内容区
等待一会就可以解析完成,正确率还是比较高的,大约能在90%以上,本人用了很多次,正确率还是比较高的。(图中可能是由于是PS直接做成并在PDF放大了比例,导致识别不准确。有几个错误的地方。)用这种方法再大体的对照一遍,也比需要时用手挨个敲要省不少时间和力气。
工具栏和编辑区域
有工具栏和编译好的文本区域。可以download(下载),Copy to Clipboard(复制到粘贴板)等,依据需求进行操作。这里选择了download(下载),download里面有三种下载格式
三个下载格式
有Plain text(TXT)、Microsoft(doc)和Adobe Acrobat(PDF)三种文件格式,按需下载。或者将翻译的文档直接拷贝到新建的Word文档或是翻译软件。
有个缺点:就是如果页数较多的时候,需要逐张的选中翻译然后挨张保存。
而这种小工具的作用也是旨在帮助提高效率,而不能完全的替代人力。
欢迎看官们有更好的见解和意见,下方评论。