程式者的胡言亂語

pageicon 星期四 六月 07, 2007

HEMiDEMi支援「站內」搜尋

不要問黑米為我們做了什麼、要問我們為黑米做了什麼?」這句話在我身上真是得到一個完全的鐵證。在昨天我公布了HEMiDEMi書籤搜尋工具之後,立刻獲得了HEMiDEMi站方的HEMiDEMi在同一天也推出了官方版本的「站內」搜尋。這一個版本,和我的HEMiDEMi書籤搜尋工具,有幾個主要的不同處。


首先,它支援了highlighter,也就是標示所搜尋的文字在標題、標籤、或描述的位置。再來,它的ranking不只是根據searchscore來決定,而會依據站內的被推的分數來排列。接著,它能夠搜尋站內的留言。最後,它的搜尋範圍,只限於站內。


前三樣都算是優點,但比較重要的其實是第二點。怎麼說了,共享書籤的搜尋和Google這種globalsearch engine,最大的差別在於它是工人智慧去選出來的,而且工人智慧在這個過程中已經給了它分數,所以納入這個分數是很有用的。


不過這個想法,之前獨孤木跟我說了,不過礙於時間就沒做了,HEMiDEMi站方能夠利用它,實在值得嘉獎。


但最後一個算是缺點,因為它並沒有對書籤所指到的網頁做索引,這使得倘若所搜尋的文字沒有出現在標題、標籤、描述、或站內的留言時,就不會找到。但,這也許不會構成一個大缺點,因為上述的四項資訊,應該都會記錄著比較關鍵的資訊,這樣的做法,一方面可以保持系統簡單,另一方面也可以避免被過多的雜訊干擾。不過,如果我們在HEMiDEMi上輸入「最麻瓜的呆頭」時,你只會找到獨孤木的這篇「獨孤木with diggirl.net - 文王一怒安天下,衝冠一怒為紅顏,qing一怒做黑米書籤搜尋工具?」。但是,在我的搜尋工具中,卻可以找出(1)「獨孤木with diggirl.net - 文王一怒安天下,衝冠一怒為紅顏,qing一怒做黑米書籤搜尋工具?」(2)HEMiDEMi書籤搜尋工具preprepre-alpha《 程式者的胡言亂語 : 一個程式者的胡言亂語」(3)「鄉民與良民的丁丁新聞台 | Nothing But Net」三篇。原因就是在於它並沒有對站外的文章本身做索引。


無論如何,許多使用者盼了很久(而且被封印很久)的搜尋功能,終於是有了新的版本。「不要問黑米為我們做了什麼、要問我們為黑米做了什麼?」最麻瓜的呆頭工程師做了什麼改變呢?在很短的時間內,最麻瓜的呆頭工程師催生了HEMiDEMi提供了一個好用的工具,造福了廣大使用這個服務的使用者。何況,即使HEMiDEMi沒有提供,使用本HEMiDEMi書籤搜尋工具也能達到作用。


資訊科技用於解決資訊過多的問題絕對是有幫助的,只是我不知道葛力要怎麼解釋這個功能始終遲遲沒有推出,為什麼在一夜間就生出來呀,如果這麼容易生,為什麼不早點做呢?


不論如何,因為我的這個計畫,對HEMiDEMi造成了改變,也造福了廣大的HEMiDEMi用戶,我心裡實在開心啊。

迴響:

>> 不論如何,因為我的這個計畫,對HEMiDEMi造成了改變,也造福了廣大的HEMiDEMi用戶,我心裡實在開心啊。

不是想潑你冷水,不過會不會是你想太多? :P
如果說過幾天站方也才跟著推出,那也許你還可以說可能和你有關,但是同一天推出?站方速度再快也沒這麼快吧

還有,順便請教一個問題。你是怎麼抓到黑米的書籤資料的?是透過 RSS 嗎? 如果不是透過公開的 RSS,這樣抓別人網站的資料不會有問題嗎?

由...發表 Pink on 六月 08, 2007 at 02:22 上午 CST #

不知道什麼叫做 "公開的 RSS",可以請教一下嗎?還是哪裡有私有的 RSS 可以參考的?

由...發表 clsung on 六月 08, 2007 at 08:45 上午 CST #

To Pink,
"但是同一天推出?站方速度再快也沒這麼快吧"
請參考lukhnos的這篇文章:
http://lukhnos.org/blog/zh/archives/501

"任何ActiveRecord model只要加上輕量之人最愛的神秘一行,瞬間就具有了全文搜尋能力。"
HEMiDEMi是用RoR開發的, 我想用的也是ActiveRecord, 從它只支援"站內"搜尋就知道, 這有很高的機會是套用acts_as_ferret生出來的. 因為它現在只能針對站內的資料庫內的資料做索引, 沒有對站外的資料做索引. 這看起來就像是只套用在ActiveRecord上. 根本沒有spider這一塊. (其實我寫的也不是spider 啦, 因為它根本不會亂爬! )

裝上了ferret, 只要再做點前端就行了. 照我估計, 這是輕而易舉的事情.
另外, 我們從這個搜尋功能推出之後, 馬上被捉到一個paging的 bug 就知道, 這個功能是急著推出來的, 否則一個production的系統, 怎麼會連這個明顯的bug都沒測到就急著上戰場呢? 我以為只有diggirl才會幹這種事.

另外, 回應你的關於抓資料的問題. Google 是透過什麼RSS去捉你網頁的資料嗎? HEMiDEMi在抓別人網頁的縮圖時是透過什麼RSS去捉嗎?

RSS只是告訴你那邊有資料, 跟你能不能抓這個資料, 一點關係都沒有.

由...發表 Qing on 六月 08, 2007 at 09:46 上午 CST #

我是覺得要爬人家的資料,就要認真一點爬,拿人家的積分回來sorting,應該是比較好的solution。

不過用spider去把書籤網站所指到的網頁也做個index,這個就是很重的loading了。除非,你只像現在一樣做一次,這樣就是看它當時有什麼記得什麼,要是要定期去重新整理,這就累了。

你要是在「鄉民與良民的丁丁新聞台 | Nothing But Net」裡面的bias留言前就去做index,就抓不到「最麻瓜的呆頭」了。

Google這樣scale的公司,會定期去再掃一次。所以如果以後要做到商業服務的話,那就變成定期要去掃一掃黑米的網頁。這樣連人家討論所回應的東西都會進得去。

不過呢,這個服務就當做是個玩具吧。就當做很厲害的程式設計師,無聊時寫個玩具玩一玩。哈哈哈。

咦,我差點忘了,我是要誇獎這個妹長的不錯,居然被我漏掉了,趕快去補推一個。

有件事實在很怪,怎麼會有那麼多人噓她呢?

由...發表 獨孤木 on 六月 08, 2007 at 10:03 上午 CST #

這不就是為新服務練兵的目的嗎?
把整個search service大概做一遍, 就會想到一些原先沒做之前沒想到的問題, 看吧, 這不就想到了一堆問題 ?!
話說到這個妹, 超正! 個人給予很高的評價!

另外,不要再說我是很厲害的程式設計師了啦, 我會被人家電!

由...發表 Qing on 六月 08, 2007 at 10:11 上午 CST #

好吧,那就當做是一個很肉腳的程式設計師,花了幾天就做出一個人黑米的使用者期待很久的東西。可是不把你說強一點,把這個問題說難一點,這樣人家會怎麼看黑米呢?

由...發表 獨孤木 on 六月 08, 2007 at 12:12 下午 CST #

發表迴響:
  • HTML 語法: 關閉
把對母乳媽媽的感謝與支持傳出去

« 三月 2010
星期日星期一星期二星期三星期四星期五星期六
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
   
       
今日

Search this blog

Links

Weblog menu

Today's referrers

Feeds