第二代 google排名搜索引擎雖然比第一代在搜索速度、針對多種語言信息的擴展等方面有所改進,在以自然語言為查詢語言方面也做了一些探索。然而,隨著Internet的強勢發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。IDC在2001年下半年公布的一份報告表明,前期被大肆宣傳為“使用簡便易用,搜索結(jié)果豐富”的google排名搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因為大多數(shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,現(xiàn)在仍然是無法突破的難題。
一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動排序軟件Spiders蜘蛛程序,只能接受這種格式的網(wǎng)頁。這意味著,在企業(yè)內(nèi)部的局域網(wǎng)上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫的信息會長期的“沉沒”在信息的海底中。
如何解決這些難題已成為第三代搜索引擎探索的方向。一個好的搜索引擎不再僅憑借數(shù)據(jù)庫大小、更新頻率、檢索速度、對多語言的支持這幾個基本特性來衡量,隨著數(shù)據(jù)庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認(rèn)為是下一代搜索技術(shù)的競爭要點。比如在某搜索引擎中查詢“旅游”這個詞,返回的信息超過一百萬條,假定一個人3秒鐘查看一個網(wǎng)頁,就算只查看其中10%的網(wǎng)頁,一刻不停地看下去也需要十多個小時。
好在google排名搜索引擎技術(shù)發(fā)展迅速,諸如智能化、個性化特色的新型引擎與過去的搜索引擎相比有了很大的區(qū)別。智能搜索可以通過對搜索內(nèi)容相關(guān)性的自動學(xué)習(xí),來提高搜索結(jié)果的準(zhǔn)確度。不過,現(xiàn)在還沒有一種可行的方式真正實現(xiàn)智能化,很難將所需信息一定顯示在前兩三頁的搜索結(jié)果之中。
另一個頗受矚目的搜索技術(shù)就是將P2P技術(shù)應(yīng)用到網(wǎng)頁的檢索中。通過共享所有硬盤上的文件、目錄乃至整個硬盤,用戶搜索時無需通過Web服務(wù)器,不受信息文檔格式的限制,即可達到傳統(tǒng)目錄式搜索引擎無可比擬的深度(傳統(tǒng)引擎只能達到20%~30%的網(wǎng)絡(luò)資源)。美國一家新興搜索引擎設(shè)計公司i5 Digital在兩年前已正式推出了依據(jù)對等搜索理念的商業(yè)性搜索引擎Pandango(www.pandango com),但至今仍未進入主流搜索引擎陣容的事實,則說明P2P搜索目前也只能稱為是未來的技術(shù)。
“P2P搜索這個理念我最早是 1997年底在Infoseek聽到的,當(dāng)時的Infoseek里已經(jīng)有人提出并開始考慮這種google排名搜索技術(shù)了”,李彥宏表示,“各個網(wǎng)站上都有一個自己的小的搜索引擎,大家相互之間可以進行溝通,如果這個引擎查不到,可以通過其他的引擎查,就是這樣的一個概念。但是到目前為止,它離實際的應(yīng)用還差得非常遠,主要是違反了關(guān)鍵性指標(biāo)中有關(guān)速度的問題。由于有很多這種小的相互獨立又相互鏈接的引擎,其速度與集中式管理的搜索引擎相比肯定會差很多”。
商業(yè)應(yīng)用與學(xué)術(shù)研究之間總會存在一定的距離,但這并不是表示商業(yè)界不重視對技術(shù)的追求,尤其是像Google這些已經(jīng)處于該領(lǐng)域金字塔塔尖的公司。Google擁有一個開放性數(shù)據(jù)庫,內(nèi)含一百多個未來需要實施的項目,這些項目由五十位計算機科學(xué)博士負(fù)責(zé)推進。2002年6月, Google專門成立了“實驗室”,以展示他們在互聯(lián)網(wǎng)搜索領(lǐng)域里最新研究的技術(shù),并發(fā)布在互聯(lián)網(wǎng)(labs.Google com)上供公眾試用,廣泛收集用戶的反饋意見。實驗室里已經(jīng)展示的項目,包括鍵盤檢索、語音檢索等等。
或許有些人會認(rèn)為,這些所謂的實驗項目似乎看不出搜索引擎技術(shù)將在觀念上進行大的轉(zhuǎn)變,實際上,搜索引擎技術(shù)在8年多的時間里一直是以一個漸變的過程在發(fā)展!耙粋搜索引擎并不是說某一方面好就能受大眾喜歡,必須方方面面做到了才行”,李彥宏這么認(rèn)為,“現(xiàn)在搜索還不能完全滿足人們的需求,因為需求太多樣化,很難一一滿足”。這也是主流搜索引擎目前更重視在細(xì)節(jié)上下功夫的原因。
無論如何,包括Google的佩杰在內(nèi)的搜索技術(shù)領(lǐng)域的領(lǐng)先者都認(rèn)為,最終的搜索引擎將是智能化的,能夠理解世界上的所有事物。佩杰還是Web服務(wù)技術(shù)領(lǐng)域積極的參與者,他正在嘗試將Web服務(wù)技術(shù)應(yīng)用到搜索當(dāng)中,以解決跨平臺、多格式的信息檢索。而我們現(xiàn)在所見到的,主流搜索技術(shù)把注意力集中在提升自身搜索引擎質(zhì)量、擴展應(yīng)用范圍,比如支持圖片檢索、PDA等移動手持設(shè)備的檢索,這些都將成為下一代技術(shù)實現(xiàn)過程中必不可少的步驟。