1种方法:
扫描仪扫出的PDF文件是图像格式,想得到文本或word文档,可以使用尚书等OCR软件转换。
什么是OCR?
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
常用OCR软件(即能识别图片中文字的软件)有哪些?
有清华文通、汉王文豪、ABBYY FineReader OCR Professional 7.0、慧视小灵鼠、尚书OCR、汉王OCR、蒙怡OCR、丹青OCR等。
注意事项:转换后还需要手工对其进行排版和校对工作,因为现在市面上这类软件还没有达到完全智能化,转换率还没有真正达到100%。有些OCR软件可能不支持中文。
2种方法:
如果不想安装OCR类软件,那就安装CAJ浏览器7.0版,这个软件可以打开PDF文件,最主要的是此浏览器有OCR(光学字符识别)功能,可以使用这一功能转出图片中的文字。
3种方法:
使用Pdf2all软件转换。Pdf2all 是一款PDF文件转换工具,使用此软件必须安装Ghostscript和Postscript,运行 pdf2all 安装包,启动 pdf2all 主程序。
Pdf2all软件的下载地址:http://www.onlinedown.net/softdown/42274_2.htm
4种方法:
利用Office 2003中自带的Microsoft Office Document Imaging工具。
使用方法: 第一步:首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
关联阅读文章:
《Word转pdf的三种方法:自转、软件转、在线转》
《如何编辑pdf格式文件》