|
发表于 2006-12-7 23:10:07
|
显示全部楼层
来自: 中国江西九江
PDF文件的识别
& F, O$ _4 @, c6 S9 {5 `" H2 v7 S7 A9 d1 F" o: t7 P
1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。4 R" ]; I+ t# U8 c Y
# w4 a5 `# K r* h X 2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。; r- B5 U) W% G% ?$ h
) l5 H1 i$ Z( c) ]7 \4 z
注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)$ A5 w7 y- t% N/ S4 z) ?! F
! L" ^. z. [, t' _9 I 3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)* J! ~' m; U& _6 ]
& `5 E" n6 b% q0 I 4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换” |
|