搜索引擎的基本工作原理包括如下三個過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并將查詢結(jié)果返回給用戶。
2、處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。
3、提供檢索服務(wù)。用戶輸入關(guān)鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。
全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。
另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生了很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。
當用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。
目錄索引
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。
其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由于登錄Yahoo!的難度最大,而它又是商家網(wǎng)絡(luò)營銷必爭之地,所以我們會在后面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜索引擎時,我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄(Directory)。
最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進行調(diào)整,當然事先是不會和你商量的。
目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時,可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標題字母的先后順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用OpenDirectory目錄提供分類查詢。而象Yahoo!這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索范圍(注),在默認搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認的是網(wǎng)頁搜索,如Yahoo。
新競爭力通過對搜索引擎營銷的規(guī)律深入研究認為:搜索引擎推廣是基于網(wǎng)站內(nèi)容的推廣——這就是搜索引擎營銷的核心思想。這句話說起來很簡單,如果仔細分析會發(fā)現(xiàn),這句話的確包含了搜索引擎推廣的一般規(guī)律。本文作者在“網(wǎng)站推廣策略之內(nèi)容推廣思想漫談”一文中提出一個觀點:“網(wǎng)站內(nèi)容不僅是大型ICP網(wǎng)站的生命源泉,對于企業(yè)網(wǎng)站網(wǎng)絡(luò)營銷的效果同樣是至關(guān)重要的”。因為網(wǎng)站內(nèi)容本身也是一種有效的網(wǎng)站推廣手段,只是這種推廣需要借助于搜索引擎這個信息檢索工具,因此網(wǎng)站內(nèi)容推廣策略實際上也就是搜索引擎推廣策略的具體應(yīng)用。
百度與谷歌算法區(qū)別
查詢處理以及分詞技術(shù)
隨著搜索經(jīng)濟的崛起,人們開始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。作為企業(yè),會根據(jù)搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網(wǎng)民,會根據(jù)搜索引擎的性能和技術(shù)來選擇自己喜歡的引擎查找資料;作為技術(shù)人員,會把有代表性的搜索引擎作為研究對象。搜索引擎經(jīng)濟的崛起,又一次向人們證明了網(wǎng)絡(luò)所蘊藏的巨大商機。網(wǎng)絡(luò)離開了搜索將只剩下空洞雜亂的數(shù)據(jù),以及大量等待去費力挖掘的金礦。
但是,如何設(shè)計一個高效的搜索引擎?我們可以以百度所采取的技術(shù)手段來探討如何設(shè)計一個實用的搜索引擎。搜索引擎涉及到許多技術(shù)點,比如查詢處理,排序算法,頁面抓取算法,CACHE機制,ANTI-SPAM等等。這些技術(shù)細節(jié),作為商業(yè)公司的搜索引擎服務(wù)提供商比如百度,GOOGLE等是不會公之于眾的。我們可以將現(xiàn)有的搜索引擎看作一個黑盒,通過向黑盒提交輸入,判斷黑盒返回的輸出大致判斷黑盒里面不為人知的技術(shù)細節(jié)。
查詢處理與分詞是一個中文搜索引擎必不可少的工作,而百度作為一個典型的中文搜索引擎一直強調(diào)其“中文處理”方面具有其它搜索引擎所不具有的關(guān)鍵技術(shù)和優(yōu)勢。那么我們就來看看百度到底采用了哪些所謂的核心技術(shù)。
我們分兩個部分來講述:查詢處理/中文分詞。
一、查詢處理
用戶向搜索引擎提交查詢,搜索引擎一般在接受到用戶查詢后要做一些處理,然后在索引數(shù)據(jù)庫里面提取相關(guān)的信息。那么百度在接受到用戶查詢后做了些什么工作呢?
1、假設(shè)用戶提交了不只一個查詢串,比如“信息檢索理論工具”。那么搜索引擎首先做的是根據(jù)分隔符比如空格,標點符號,將查詢串分割成若干子查詢串,比如上面的查詢就會被解析為:三個子字符串;這個道理簡單,我們接著往下看。
2、假設(shè)提交的查詢有重復的內(nèi)容,搜索引擎怎么處理呢?比如查詢“理論工具理論”,百度是將重復的字符串當作只出現(xiàn)過一次,也就是處理成等價的“理論工具”,而GOOGLE顯然是沒有進行歸并,而是將重復查詢子串的權(quán)重增大進行處理。那么是如何得出這個結(jié)論的呢?我們可以將“理論工具”提交給百度,返回341,000篇文檔,大致看看第一頁的返回內(nèi)容。
繼續(xù),我們提交給GOOGLE查詢“理論工具理論”,在看看返回結(jié)果,仍然是那么多返回文檔,當然這個不能說明太多問題,那看看第一頁返回結(jié)果的排序,看出來了嗎?順序完全沒有變化,而GOOGLE則排序有些變動,這說明百度是將重復的查詢歸并成一個處理的,而且字符串之間的先后出現(xiàn)順序基本不予考慮(GOOGLE是考慮了這個順序關(guān)系的)。
3、假設(shè)提交的中文查詢包含英文單詞,搜索引擎是怎么處理的?比如查詢”電影BT下載”,百度的方法是將中文字符串中的英文當作一個整體保留,并以此為斷點將中文切分開,這樣上述的查詢就切為,不論中間的英文是否一個字典里能查到的單詞也好,還是隨機的字符也好,都會當作一個整體來對待。至于為什么,你用查詢“電影dfdfdf下載”看看結(jié)果就知道了。當然如果查詢中包含數(shù)字,也是如此辦理。
搜索引擎優(yōu)化核心
&nb