|
马上注册,结识高手,享用更多资源,轻松玩转三维网社区。
您需要 登录 才可以下载或查看,没有帐号?注册
x
现在网上许多资料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。 本文所述利用微软提供的OCR识别技术从CAJ、PDF等文件中提取全部文本的方法,简便快捷,效率很高。+ R- d8 C6 U$ P% I! j y- F9 j* b
从不同格式的文件中提取文本前需要做好以下准备工作,安装CAJViewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装Office2003,并完全安装Office工具Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 ; b4 q9 r4 |. Z, [9 H9 F% A
Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。 / |7 M' s. y7 l# M" a* L$ e+ e
CAJ文件的识别
( ]( m1 H( h- U1 a, a4 ]' e(一)首先,从网上下载CAJ格式的资料文件保存到本地硬盘上。
) u9 Z9 x$ w+ [ G8 _4 X3 X (二)然后,启动CAJViewer浏览器程序,并在该程序中打开刚才保存的CAJ格式的文件。浏览文件到最后一页后,不要关闭CAJ浏览器程序。: [& A, q3 u( r4 ]" M
(三)在CAJ浏览器程序窗口中,选择"文件"→"打印",并选择打印机为Microsoft Office Document Image Writer打印机,勾选打印到文件选项和确定打印页数。
& Q; C; b4 g9 T$ r$ q. X* c (四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office Document Image 自动打开刚才保存的打印文件。
( F, G- u% n Z) H+ ? (五)在Microsoft Office Document Image窗口中,选择"页面"菜单中的"选择所有页面"菜单项,然后选择"工具"菜单中的"使用OCR识别文本"提取文本。
5 V5 @5 i! f& z0 u" H: p' O (六)选择"工具"下的 "将文本发送到word",最后将把整个CAJ文件识别输出到word文件中 。 |
|