|
马上注册,结识高手,享用更多资源,轻松玩转三维网社区。
您需要 登录 才可以下载或查看,没有帐号?注册
x
现在网上许多资料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。 本文所述利用微软提供的OCR识别技术从CAJ、PDF等文件中提取全部文本的方法,简便快捷,效率很高。
& `+ e8 ?! a- J 从不同格式的文件中提取文本前需要做好以下准备工作,安装CAJViewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装Office2003,并完全安装Office工具Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。
- S: ~3 ?9 p$ P0 r* s# f Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。 $ t% c! P& i+ O7 y+ K* d K
CAJ文件的识别
6 S1 I' J+ P& N$ m+ L" F) k7 `9 J(一)首先,从网上下载CAJ格式的资料文件保存到本地硬盘上。
0 _ `7 S0 j! y9 m (二)然后,启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后,不要关闭CAJ浏览器程序。! g4 v( r l2 r1 y
(三)在CAJ浏览器程序窗口中,选择"文件"→"打印",并选择打印机为Microsoft Office Document Image Writer打印机,勾选打印到文件选项和确定打印页数。
6 i* \0 V- J$ g5 s (四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office Document Image 自动打开刚才保存的打印文件。) Z4 Y' ~, q, O% D. q
(五)在Microsoft Office Document Image窗口中,选择"页面"菜单中的"选择所有页面"菜单项,然后选择"工具"菜单中的"使用OCR识别文本"提取文本。0 W2 a3 C' u, [+ j7 `
(六)选择"工具"下的 "将文本发送到word",最后将把整个CAJ文件识别输出到word文件中 。 |
|