物理學(xué)研究表明,在目前宇宙所有物質(zhì)的總體質(zhì)量中,星系等可見物質(zhì)只占其中的20%,不可探測的暗物質(zhì)占據(jù)了總質(zhì)量的大約80%;ヂ(lián)網(wǎng)中的暗網(wǎng)可與宇宙中的暗物質(zhì)相類比,而其所占網(wǎng)頁的比例,更是遠(yuǎn)大于暗物質(zhì)占宇宙的比例,大約百倍于目前的明網(wǎng)網(wǎng)頁。
所謂暗網(wǎng),是指目前搜索引擎爬蟲按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面。如前所述,搜索引擎爬蟲依賴頁面中的鏈接關(guān)系發(fā)現(xiàn)新的頁面,但是很多網(wǎng)站 的內(nèi)容是以數(shù)據(jù)庫方式 存儲的,典型的例子是一些垂直領(lǐng)域網(wǎng)站,比如攜程旅行網(wǎng)的機(jī)票數(shù)據(jù),很難有顯式鏈接 指向數(shù)據(jù)庫內(nèi)的記錄,往往是服務(wù)網(wǎng)站提供組合查詢界面,只有用戶按照需求輸入查詢之后,才可能獲得相關(guān)數(shù)據(jù)。所以,常規(guī)的爬蟲無法索引這些數(shù)據(jù)內(nèi)容,這是暗網(wǎng)的命名由來。
為了能夠?qū)Π稻W(wǎng)數(shù)據(jù)進(jìn)行索引,需要研發(fā)與常規(guī)爬蟲機(jī)制不同的系統(tǒng),這類爬蟲被稱做暗網(wǎng)爬蟲。暗網(wǎng)爬蟲的目的是將暗網(wǎng)數(shù)據(jù)從數(shù)據(jù)庫中挖掘出來,并將其加入搜索引擎的索引,這樣用戶在搜索時便可利用這些數(shù)據(jù),增加信息覆蓋程度。
目前大型搜索引擎服務(wù)提供商都將暗網(wǎng)挖掘作為重要研究方向,因為這直接關(guān)系到索引量的大小。在此領(lǐng)域的技術(shù)差異,將直接體現(xiàn)在搜索結(jié)果 在全面性上,自然是競爭對手之間的必爭之地。Google目前將其作為重點研發(fā)方向,而百度的“阿拉丁計劃”目的也在于此。
垂直網(wǎng)站提供 的搜索界面,往往需要人工選擇或者填寫內(nèi)容,比如機(jī)票搜索需要選擇出發(fā)地、到達(dá)地和日期,圖書搜索需要指出書名或者作者。而暗網(wǎng)爬蟲為了能夠挖掘數(shù)據(jù)庫的記錄,必須模擬人的行為,填寫內(nèi)容并提交表單。對于暗網(wǎng)爬蟲來說,其技術(shù)挑戰(zhàn)有兩點:一是查詢組合太多,如果一一組合遍歷,那么會給被 訪問網(wǎng)站造成太大壓力,所以如何精心組合查詢選項是個難點;第二點在于:有的查詢是文本框,比如圖書搜索中需要輸入書名,爬蟲怎樣才能夠填入合適的內(nèi)容?這個也頗具挑戰(zhàn)性。