亂世用重典,搜索引擎在與spam的長期戰(zhàn)爭中總是處于不利地位(這很容易理解,搜索引擎公司真正考慮搜索結(jié)果相關(guān)性和排序的只有幾個人,而互聯(lián)網(wǎng)上整天琢磨怎么對付搜索引擎的有幾萬幾十萬webmaster),所以對spam的懲罰很嚴(yán)厲,事實(shí)上,所有的搜索引擎對它們認(rèn)定的spam行為,通常只有一種懲罰:永久屏蔽,F(xiàn)在流行的太極鏈、鳳凰鏈這些超鏈群,就存在被當(dāng)做spam的可能性。國內(nèi)的搜索引擎注冊還沒有形成市場,但在國外是很發(fā)達(dá)的產(chǎn)業(yè),每年以200%的速度增長,它們叫SEO,即searchengineoptimization。
從某種角度來說,幾乎是spam在推動著搜索引擎的進(jìn)步,很久很久以前的一天,搜索引擎?zhèn)優(yōu)榱怂阉鹘Y(jié)果能更準(zhǔn)確,為了能把最相關(guān)的搜索結(jié)果排在前面,發(fā)明了metatag。起初,metatag是很好用的,那時候,誠實(shí)的webmaster們?nèi)鐚?shí)的填寫網(wǎng)站摘要,如實(shí)的列出跟他的網(wǎng)站最相關(guān)的關(guān)鍵字,搜索引擎?zhèn)冏ト、索引、檢索這些誠實(shí)的metatag,并作為搜索結(jié)果排序的重要依據(jù),然后,是一段相安無事的甜蜜時光。
歲月迅速流逝,甜蜜時光擋不住資本的力量。“一旦有適當(dāng)?shù)睦麧,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險!痹絹碓蕉嗟網(wǎng)站開始追求收入追求pageview,它們開始欺騙搜索引擎,它們在metatag中塞進(jìn)成堆的關(guān)鍵字,塞進(jìn)跟自己的網(wǎng)站內(nèi)容無關(guān)的但是流行的關(guān)鍵字。群眾的力量是巨大的,搜索引擎的相關(guān)性被破壞了。。。
搜索引擎?zhèn)儗ψ鞅渍唛_始第一輪反擊,但是無力的,它們的做法是:在排序時更多的依賴網(wǎng)頁正文而不是metatag。
作弊者以進(jìn)為退,開始第二輪攻擊,他們在正文中大量使用與網(wǎng)頁背景相同顏色的關(guān)鍵字,在imagetags中塞進(jìn)關(guān)鍵字,在網(wǎng)頁代碼加入“看不見的注釋”。
搜索引擎開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字,取得了小小的勝利。
善良是善良者的墓志銘,卑鄙是卑鄙者的通行證”,作弊者眼見常規(guī)武器無效,開始利用搜索引擎的真誠。搜索引擎的spider是互聯(lián)網(wǎng)上的謙謙君子,它們訪問任何網(wǎng)站都會自報身份,并且查閱網(wǎng)站的訪問規(guī)定,完全按照各網(wǎng)站的規(guī)矩來辦事。于是,作弊者精心制作了兩個網(wǎng)站,一個專供網(wǎng)友訪問,一個專供搜索引擎訪問,每當(dāng)發(fā)現(xiàn)訪問請求來自搜索引擎時,就返回專供搜索引擎看的能令搜索引擎滿意的網(wǎng)頁,而正常訪問者只能看到另一個截然不同的網(wǎng)站。這種方法叫做cloaking。這第三輪攻擊,作弊者大勝。
1998年3月1日,分別在AltaVista、Excite、HotBot、Infoseek、Lycos搜索當(dāng)時的熱門詞匯“MonicaLewinsky”,各搜索引擎首頁居然分別有50%、30%、30%、10%、50%的搜索結(jié)果是spam。由此可見當(dāng)時作弊者們猖獗至何等程度!
搜索引擎?zhèn),因為它們道德上的弱點(diǎn),因為有些手段不愿用,所以無法完全辨別cloaking網(wǎng)站,也就無法完全對付作弊者。搜索引擎能做的只是嚴(yán)厲的懲罰被發(fā)現(xiàn)的spam,以警告作弊者,發(fā)展到今天的結(jié)果是,所有的搜索引擎對它們認(rèn)定的spam行為,只有一種懲罰:永久屏蔽。
但是,嚴(yán)厲的懲罰從來只是無能者推卸責(zé)任的借口,而不能真正的改善狀況!耙坏┯羞m當(dāng)?shù)睦麧,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險!弊鞅渍邚膩砭筒慌聭土P,當(dāng)互聯(lián)網(wǎng)狂潮來臨,追求pageview的作弊者們更是肆無忌憚。
無可奈何的搜索引擎,只有去尋找新的相關(guān)性排序依據(jù),只有去尋找作弊者不能控制的排序依據(jù),只有去網(wǎng)站以外尋找排序的依據(jù),搜索引擎,真的別無選擇。
于是,開始出現(xiàn)了超鏈分析,出現(xiàn)了Pagerank。一個網(wǎng)頁,說它自己是什么,它就是什么嗎?物以類聚,如果它說的是真的,那么指向這個網(wǎng)頁的鏈接應(yīng)該來自具有同類內(nèi)容的網(wǎng)頁,所以指向這個網(wǎng)頁的鏈接可以被用來驗證這個網(wǎng)頁的相關(guān)性。
誰,最不可能出于貪婪而作弊?誰,最可能如實(shí)提供網(wǎng)頁內(nèi)容?是政府網(wǎng)站,和教育網(wǎng)站。所以,在超鏈分析中,gov和edu網(wǎng)站通常被賦予較高的排名,來自gov和edu的超鏈也有更高的價值。
但是PageRank也帶來了一些不請自來的錯誤排序因素:新站不如舊站,小站不如大站,專業(yè)站不如通俗站。一個新網(wǎng)站,一個小網(wǎng)站,一個專業(yè)網(wǎng)站,它的內(nèi)容再好,因為不可能迅速得到大量的超鏈,所以無法得到合適的排名,即使它的內(nèi)容是無與倫比的。而一個歷史悠久的老網(wǎng)站、大網(wǎng)站、通俗網(wǎng)站,即使它已久不更新,或者內(nèi)容遠(yuǎn)不如某些小網(wǎng)站,卻可以獲得很高的排名。
當(dāng)超鏈分析剛出來時,SEO界一片悲觀論調(diào),認(rèn)為這是無法作弊的,SEO業(yè)完蛋了(就象近期各搜索引擎紛紛收費(fèi),SEO業(yè)更覺得自己前景慘淡,其實(shí)雖然搜索引擎排名市場的大頭要給搜索引擎?zhèn),但SEO還是有錢賺的,畢竟,只有勞動模范有下崗的可能,從來沒聽說騙子會失業(yè)的),但是,道高一尺魔高一丈,很快SEO們發(fā)現(xiàn)了對付超鏈分析的方法:你不是喜歡鏈接么,好,我就做大量的網(wǎng)站,準(zhǔn)備大量的鏈接,哪個客戶出錢,我所有的網(wǎng)頁都給它一個鏈接。這種SEO方法被稱為linkfirm。這種方法剛出現(xiàn)時還算有效,不過很快就不行了,因為一個網(wǎng)站是否有大量來自內(nèi)容不相干網(wǎng)頁的鏈接,或者一個不是搜索引擎的網(wǎng)站給出大量不相干的鏈接還不難判斷。而每當(dāng)發(fā)現(xiàn)一個linkfirm,那些使用了該linkfirm的網(wǎng)站就全部死翹翹。我在wmw的論壇上看過一個家伙的帖子,說他的網(wǎng)站被封了,但他覺得自己很干凈,沒有做spam,所以主動去問Google封他網(wǎng)站的原因,原來僅僅是因為他用了一個linkfirm,真是可憐
一種搜索結(jié)果的排序算法,如果更多的是基于概念、主題、基于網(wǎng)頁內(nèi)容的質(zhì)量,而不是網(wǎng)絡(luò)上互相鏈來鏈去的超鏈的重要性,那么搜索結(jié)果的相關(guān)性在本質(zhì)上會更好。
只是,讓計算機(jī)學(xué)會理解和評價網(wǎng)頁內(nèi)容嗎?好像還是很遙遠(yuǎn)的事情;花大量的人力一個個網(wǎng)頁評估么?這肯定是虧本的商業(yè)行為,只有靠志愿者。ODP庶幾近之,但也只能點(diǎn)擊,用關(guān)鍵字搜索時還是無法跟超鏈分析的結(jié)果相比。