QQ登录

只需一步,快速开始

登录 | 注册 | 找回密码

三维网

 找回密码
 注册

QQ登录

只需一步,快速开始

展开

通知     

全站
goto3d 说: 版主微信号:caivin811031;还未入三维微信群的小伙伴,速度加
2022-07-04
全站
goto3d 说: 此次SW竞赛获奖名单公布如下,抱歉晚了,版主最近太忙:一等奖:塔山817;二等奖:a9041、飞鱼;三等奖:wx_dfA5IKla、xwj960414、bzlgl、hklecon;请以上各位和版主联系,领取奖金!!!
2022-03-11
查看: 1799|回复: 8
收起左侧

[分享] 各种电子图书馆文章转为Word文档的方法

[复制链接]
发表于 2006-10-29 23:54:18 | 显示全部楼层 |阅读模式

马上注册,结识高手,享用更多资源,轻松玩转三维网社区。

您需要 登录 才可以下载或查看,没有帐号?注册

x
各种电子图书馆文章转为Word文档的方法
0 V1 }: _1 Y! C  l! a, X4 _
; q0 R* _4 H, N! E各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无法使用。 ' m1 ~  q8 }# _8 l& {2 A
还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确方法,节省时间:
" n' d( p, \+ w" j! E" n" @% m( q! v/ n  N$ c/ u6 {# ^0 W
  1、PDF文件的识别
# }$ Q; D, p. S6 X3 d
+ b1 J' L' f5 A. A( w  1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。: z) r! O' E/ B3 V7 T

* ?  k& ]8 i* S  2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。
0 p) d% d$ |" E' F
: r3 p: g3 U+ p; N& n# }+ k6 ]  注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)$ o4 W) i0 b2 y8 L& p  s' U
% m3 B- N& B! ?. }  Y* S4 R
  3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)
- R. B& V/ y9 D5 G2 ?1 c5 O: r' L5 E& |7 V
  4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换”
5 T/ L) Y9 b' J/ S& e: G, m) H: U' C- k7 `/ O8 D# q
  2、caj文件的识别:7 u2 B: O& i7 L% ]7 O: Q

4 E$ O7 i1 j; H8 B( E/ E  1)局部文字识别:直接使用caj浏览器的ocr7 |) V! [3 M1 a

, B9 W3 Q2 c4 B, q, V( R4 q( d  2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样) f1 n2 s" p" u+ M$ L  S3 u5 Q4 r
/ V) U* z7 s# r. f8 U1 g( I$ _
  3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为Word。- x7 z6 Y8 L2 I. m- M* v* E

+ b6 `2 S& V' F6 M/ e  3、超星文件的识别:
6 `% `8 h( _+ W* T2 g9 K# g! n0 o9 \  Q
  1)局部文字识别:直接使用超星浏览器的ocr1 {6 [) R  Q" D! Y* B- X7 z

0 u; R! }4 d4 }. i! ^; P  2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。
, o4 ~1 m; [; a5 ?
' e3 K. W4 j4 R, q+ F( V+ i  3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成Word3 U# M7 q: D1 W4 h. o

5 v# r* e# @. k( J, }$ D  4、其他情况下的识别:+ W* |7 ]/ G  Z$ p7 a

3 L, `  L5 F  O6 T: V. Q" G; Y8 i1 i  |  使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。
, H# y2 v6 s0 a- E1 \8 b
( `1 U& R/ H) N  注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。$ W$ |& B! _& S: Q$ M

9 J; x3 l4 x' w" }7 b" f  ?" x  针对一些问题的补充:
) k! N" F: s9 ]7 i1 o% Y5 @6 T8 T$ [% c
  经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。( e0 Z$ u, I: x# _# V

/ V8 n& t6 G  O. p  另外页面显示大时,转化的识别率较高。; b/ d- l$ e& ^+ J- |

/ b1 X( Y' z5 F- X$ J' S% Q9 v. i  如果页数多的文件,包括超星,如果有问题,可以分多次转化。, }% }; g) z- O6 q! s, I
  ?% g; G* x4 w# F
  再次补充:5 n' h7 E; W4 V! X% W2 b4 W9 }0 W
  o( e6 \5 X" m. K
  1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。8 M( v5 x; a; t7 J8 ?% e
' A/ E, q- E; |" |1 R3 x/ j
  2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件。

评分

参与人数 1三维币 +5 收起 理由
jiang.jh + 5 好资料

查看全部评分

发表于 2006-10-30 16:01:10 | 显示全部楼层
这个有用 谢楼主 收下了
发表于 2006-11-1 22:13:53 | 显示全部楼层
很好的使用经验,谢楼主 收下了
发表于 2006-11-3 11:36:01 | 显示全部楼层
楼主列的很详细,但是我的PDF文件用ORI识别后是乱码,试了许多种字体也没用。
发表于 2006-11-13 18:27:19 | 显示全部楼层
楼主介绍的很好,谢谢
发表于 2006-11-13 19:40:47 | 显示全部楼层
谢谢楼主无私分享!!
发表于 2006-11-14 04:36:00 | 显示全部楼层
从说明到操作过程,都很详细,大家看后,都可进行试验了,向楼主致敬!
发表于 2006-11-14 11:03:12 | 显示全部楼层
用了这么久的office居然不知道这么强的功能!惭愧!. a" I3 L  W1 i( {8 |, N5 q
谢谢楼主!
发表于 2006-11-19 07:16:10 | 显示全部楼层
好资料。谢谢楼主的分享。
发表回复
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Licensed Copyright © 2016-2020 http://www.3dportal.cn/ All Rights Reserved 京 ICP备13008828号

小黑屋|手机版|Archiver|三维网 ( 京ICP备13008828号-1 )

快速回复 返回顶部 返回列表