程式者的胡言亂語

pageicon 星期日 九月 10, 2006

關鍵詞雲

在做完了「Keywords To Qing」後,每天我都會看看這blog的閱讀者-尤其是來自搜尋引擎「報路」的閱讀者,他們究竟是下了什麼查詢條件才會連進來。而最近許多bookmark manager都提供了「標籤雲(tag cloud)」的功能,這個功能主要是用來根據字詞的重要性來將字詞視覺化。我覺得這個視覺化的方式的確挺不賴的,所以也想把它拿來用來做關鍵詞雲,試著視覺化來自搜尋引擎的閱讀者所下的關鍵字。

觀察了好一陣字的查詢條件,發現有許多查詢條件都不單純只是詞的組合,它有可能是一段很口語的話,例如:「如何做gcj靜態類別庫」或「"Better Man"好男人這首歌的意義」,所以想要產生關鍵詞雲,就必須先將其中詞的部份抽取出來。寫一小段程式就可以辦到,所以在The Library,兩杯長島冰茶的作伴下,我寫了一個關鍵詞雲的程式。在這個程式中,只會保留出現超過一次的關鍵詞,免得這朵雲長的太大了,同時也避免noise的干擾。

找出從搜尋引擎來的關鍵詞能夠有什麼更具體的意義呢?我覺得它可以用來代表blog owner的文字屬性,或者更進一步的說,blog owner所寫下文字對其他人的對外表徵,例如:

可以看到,連進這個blog的閱讀者,對於java、better man、dht、p2p、甚至是error lnk2005(那是一個Visual Studio的編譯器訊息錯誤,相信我,Google就是這樣幫助開發者解決開發問題的:p)都有高度的興趣。這幾個關鍵詞自然反映了blog各篇文字的特性,甚至反映了我個人的特性。同時間更重要的是,它反映了他人的特性,最起碼反映了對這個blog會感興趣的其他人的查詢傾向。

讓blog owner自己標籤tag上的分類,反映出來的是blog owner自己的期待和認知。利用TF-IDF之類的方法來計算文字的重要關鍵詞,反映出來的是完全取決於文字本身的特性。而從這邊取出的關鍵詞,我們可以從中觀察他人對這份blog的期待,這不單是這份blog具備的特性,同時還是這份blog能吸引他人的特性。

迴響:

第二段最後面有一句話:「在這個程式中,只會保留出現一次的關鍵詞」,這是什麼意思呢?

由...發表 william on 九月 13, 2006 at 11:39 上午 CST #

發表迴響:
迴響功能已被關閉
把對母乳媽媽的感謝與支持傳出去

« 七月 2009
星期日星期一星期二星期三星期四星期五星期六
   
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 
       
今日

Search this blog

Links

Weblog menu

Today's referrers

Feeds