這是Daniel Brandt的說法。他是公共信息研究所的所長,一位激進(jìn)分子,也是公眾利益的捍衛(wèi)者。
那些想了解Google運(yùn)作及其潛在危險的人應(yīng)該去他的站看看。
危險?憑借其受專利保護(hù)的PageRank算法,Google迅速脫穎而出,成為Web上占統(tǒng)治地位的搜索引擎。Google以一種打壓競爭的方式帶來了準(zhǔn)確到位的Web搜索。其搜索主頁和相關(guān)頁面的能力是無可比擬的,有時完全是不可思議的。Google 的相關(guān)性排序很大一部分是基于到被查詢頁面的回歸鏈接。鏈接越多,頁面就越可能令你感興趣。
Google也借助關(guān)鍵字,但不僅僅是在那些多元標(biāo)識符中的。它實(shí)際上是在Web頁面內(nèi)查找,看這個詞在哪里被使用了,這樣你就無法拿老技術(shù)哄騙搜索引擎。那種老技術(shù)是指把一些挑釁性的條件一遍遍地加載,一些站點(diǎn)的背景上甚至充滿了白底白字的搜索引擎的誘餌詞,而你不能看見它們。新方法就很好地?cái)[脫了這些做法。
然而,對鏈接的依賴使Google受到其它的哄騙。作為縱橫交錯的站點(diǎn)網(wǎng)絡(luò)一部分的某個網(wǎng)頁在Google上的排名會比同樣受歡迎但鏈接較少的頁面靠前。Google極力反對那些試圖染指其關(guān)聯(lián)性得分的人,但它并未用文件證明其采取了何種安全措施。已知的一項(xiàng)服務(wù)是手工減少站點(diǎn)的得分,如果他們?yōu)E用其排名算法的話。
Google的難題在于:大的站點(diǎn)往往排名靠前,因?yàn)樗鼈兊逆溄邮謴V泛,而排名靠后的新站點(diǎn)在頁面上是如此靠下以至于它們常被忽視。
Brandt對隱私問題也很關(guān)注。雖然我們尚未得知有濫用的事例,但Google記錄了你的IP地址、搜索條件以及你從返回的列表中點(diǎn)擊了哪些站點(diǎn)。它還把一個不會過期的cookie放入你的系統(tǒng)中。我不知道這是為什么。Google把你敲入的搜索條件保存在搜索頁面URL中,從而允許使你把搜索轉(zhuǎn)發(fā)給別人。但你的瀏覽器也因此把搜索存入到其歷史記錄中,這會是令人難堪的或容易犯罪的——取決于你要搜索什么。
Brandt對Google處理Web日志記載的方式尤其感到憤慨。日志記載器是專門負(fù)責(zé)記載日志的和日志保存者。只有它們公開地、在線上做這項(xiàng)工作,且通常都與其它日志有交叉鏈接。它們使用的軟件能在它們每次張貼時自動生成新的XML目錄,這樣讀者就很容易發(fā)現(xiàn)什么是最新的。在鏈接與容易閱讀的目錄之間,日志記載器對頁面排名有很大的影響。頁面的分?jǐn)?shù)與其獲得的實(shí)際的命中率偏差很大,而把一些潛在的重要內(nèi)容放進(jìn)結(jié)果首頁上面的空缺中。A列表日志記載器(Brandt這樣稱呼他們)在處理頁面方面有過高的地位。
Google需要關(guān)注這個問題。解決途徑也許是為日志制做獨(dú)立于Web頁面的索引或使語法標(biāo)準(zhǔn)化來抑制 (或選擇)日志結(jié)果。Google的問題在于:大的站點(diǎn)往往排名靠前,因?yàn)樗鼈兊逆溄邮謴V泛,而排名靠后的新站點(diǎn)在頁面上是如此靠下以至于它們常被忽視。