JWorld@TW the best professional Java site in Taiwan
      註冊 | 登入 | 全文檢索 | 排行榜  

» JWorld@TW » 交流、聊天、灌水  

按列印兼容模式列印這個話題 列印話題    把這個話題寄給朋友 寄給朋友   
reply to topicthreaded modego to previous topicgo to next topic
話題被移動
該話題已被移動 - metavige , 2005-03-08 08:49
如果您尚不清楚該話題被移動的原因,請參考論壇規則以及本版公告或者聯系本版版主。
本主題所含的標籤
無標籤
作者 尋找HTML Parser的相關資源 [精華]
jcwu





發文: 25
於 2005-03-07 23:10 user profilesend a private message to userreply to postreply to postsearch all posts byselect and copy to clipboard. 
ie only, sorry for netscape users:-)add this post to my favorite list
最近一直在研究HTML Parser...不過一直找不太到合適的資源可以參考!

想問各位Java好手們,除了 http://htmlparser.sourceforge.net/ 這邊的資

訊外,還有其他好用的嗎?

是否有類似 http://www.onjava.com/lpt/a/4363 這樣的資源呢?

懇請大家分享一下. orz


reply to postreply to post
作者 Re:尋找HTML Parser的相關資源 [Re:jcwu]
hkdennis2k





發文: 1926
於 2005-03-08 14:06 user profilesend a private message to userreply to postreply to postsearch all posts byselect and copy to clipboard. 
ie only, sorry for netscape users:-)add this post to my favorite list
NekoHTML 也不錯(往 google 找吧)
在比較兩者中.......

NekoHTML 比較 OO, 擴充性比較高
也有希望成為 apache 正式的一個細 project....

而 htmlparser, 有幾個比較常用的例子
extract string/link 等等, 可以很快拿去使用
速度上好像都差不多
但可惜沒有和 XML parser 接上

i18n 方面
htmlparser 亂碼的機會好像高很多
NekoHTML 會自動找 meta tag 來看
而 htmlparser 好像不會?? (不過它反而會找 http-header 來看)

NekoHTML 比較著重的是 parser 本身
都是利用 xml 的 InputSource 來輸入,
也能使用常規的 DOM/SAX

而 htmlparser 好像比較看得重使用上,
能直接使用 urlconnection / source 去做事
可是反而一來, DOM/SAX 不便, 甚至只是改用 InputStream 輸入也有點麻煩

先學 Regular Expression, 去 perl.com 找就沒錯了
之後才看 java 這一邊的 library 支持到那一個地步
另. regexlib.com


reply to postreply to post
作者 Re:尋找HTML Parser的相關資源 [Re:hkdennis2k]
jcwu





發文: 25
於 2005-03-08 15:11 user profilesend a private message to userreply to postreply to postsearch all posts byselect and copy to clipboard. 
ie only, sorry for netscape users:-)add this post to my favorite list
Regular Expression,我大致上學會了如何使用,不過用那方式去處理目前我的問題點,會出現許多不好處理的地方,於是我試著改用HTMLParser去試看看,但還是找不到合適資源可以學習!! ><"
還是有Java好手們,願意分享一些基礎簡單易懂的程式,可以讓我學著如何使用HTMLParser,感激不盡. orz


reply to postreply to post
作者 Re:尋找HTML Parser的相關資源 [Re:hkdennis2k]
peterpai

peterpai



發文: 103
於 2006-09-12 17:42 user profilesend a private message to usersend email to peterpaireply to postreply to postsearch all posts byselect and copy to clipboard. 
ie only, sorry for netscape users:-)add this post to my favorite list
我…… 試了NekoHTML
還是會有中文亂碼的問題……

請問該怎麼處理呢? 給我一點點提示吧!!


reply to postreply to post
作者 Re:尋找HTML Parser的相關資源 [Re:jcwu]
peterpai

peterpai



發文: 103
於 2006-09-12 21:17 user profilesend a private message to usersend email to peterpaireply to postreply to postsearch all posts byselect and copy to clipboard. 
ie only, sorry for netscape users:-)add this post to my favorite list
不好意思,我找到方法了……

1
2
String encoding = "big5";
XMLDocumentFilter writers = new Writer(stream, encoding);


可以設定stream 的編碼!


reply to postreply to post
» JWorld@TW »  交流、聊天、灌水

reply to topicthreaded modego to previous topicgo to next topic
  已讀文章
  新的文章
  被刪除的文章
Jump to the top of page

JWorld@TW 本站商標資訊

Powered by Powerful JuteForum® Version Jute 1.5.8