JWorld@TW the best professional Java site in Taiwan
      註冊 | 登入 | 全文檢索 | 排行榜  

» JWorld@TW » Java SE 討論區  

按列印兼容模式列印這個話題 列印話題    把這個話題寄給朋友 寄給朋友   
reply to postflat modego to previous topicgo to next topic
本主題所含的標籤
無標籤
作者 如何处理 WORD 和 PDF 文档成纯文本
asdmonster





發文: 20
積分: 0
於 2004-05-08 15:14 user profilesend a private message to userreply to postreply to postsearch all posts byselect and copy to clipboard. 
ie only, sorry for netscape users:-)add this post to my favorite list
现在需要将 WORD ,PDF处理成 .TXT文件,也就是将 WORD 和 PDF中的字符抽取出来,如果有别的东西比如图片之类的都抛弃。

刚开始的时候我准备用 POI来处理 WORD文档,用PJX来处理PDF,
但是发现可能是开源的产品的帮助文档确实太少,发现了如下困难:

POI中处理WORD的时候要分WORD 97,和其他 WORD格式,但是面对一个 .DOC后缀的文件,我怎么判断是WORD97还是不是?

PJX处理PDF的时候读取的时候需要一个 XrefTable 对象,但是面对一个.PDF的文件,我该怎么样去构建这个一个 XrefTable 对象呀?

哪位大哥告诉我该怎么处理目前的情况??或者有没有更好的解决方案?


reply to postreply to post
話題樹型展開
人氣 標題 作者 字數 發文時間
2292 如何处理 WORD 和 PDF 文档成纯文本 asdmonster 728 2004-05-08 15:14
1887 Re:如何处理 WORD 和 PDF 文档成纯文本 asdmonster 42 2004-05-12 17:19
1781 Re:如何处理 WORD 和 PDF 文档成纯文本 skyforce 76 2004-05-22 10:02
1530 Re:如何处理 WORD 和 PDF 文档成纯文本 cseserv 30 2004-11-23 12:07
» JWorld@TW »  Java SE 討論區

reply to postflat modego to previous topicgo to next topic
  已讀文章
  新的文章
  被刪除的文章
Jump to the top of page

JWorld@TW 本站商標資訊

Powered by Powerful JuteForum® Version Jute 1.5.8