|
发表于 2006-12-7 23:10:07
|
显示全部楼层
来自: 中国江西九江
PDF文件的识别
$ H- q5 p3 a% Y2 b' e. a' ~( c1 [% q) Y: I5 Y
1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。
8 N* s9 O$ b/ H' K2 \* U( C6 }' |! e+ Z9 U( x/ ^, S0 ]
2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。
+ E8 \; l0 Z# i9 r3 `" t4 i! @& W3 e5 |# \! B+ |" O( n
注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
1 [2 j m; g4 \/ V7 X( w! q6 n
& S+ \( M+ M7 l5 V1 I | 3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)) Q# ^3 W5 g2 Y2 ?
$ Q$ N; n4 V, a0 T8 ~
4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换” |
|