暗網(wǎng)抓取搜索引擎爬蟲

作者：創(chuàng)新互聯(lián) 文章來源：網(wǎng)絡(luò)營銷部點擊數(shù)：更新時間：2010-09-16
      物理學(xué)研究表明，在目前宇宙所有物質(zhì)的總體質(zhì)量中，星系等可見物質(zhì)只占其中的20%，不可探測的暗物質(zhì)占據(jù)了總質(zhì)量的大約80%�；ヂ�(lián)網(wǎng)中的暗網(wǎng)可與宇宙中的暗物質(zhì)相類比，而其所占網(wǎng)頁的比例，更是遠(yuǎn)大于暗物質(zhì)占宇宙的比例，大約百倍于目前的明網(wǎng)網(wǎng)頁。

     所謂暗網(wǎng)，是指目前搜索引擎爬蟲按照常規(guī)方式很難抓取到的互聯(lián)網(wǎng)頁面。如前所述，搜索引擎爬蟲依賴頁面中的鏈接關(guān)系發(fā)現(xiàn)新的頁面，但是很多網(wǎng)站的內(nèi)容是以數(shù)據(jù)庫方式存儲的，典型的例子是一些垂直領(lǐng)域網(wǎng)站，比如攜程旅行網(wǎng)的機(jī)票數(shù)據(jù)，很難有顯式鏈接指向數(shù)據(jù)庫內(nèi)的記錄，往往是服務(wù)網(wǎng)站提供組合查詢界面，只有用戶按照需求輸入查詢之后，才可能獲得相關(guān)數(shù)據(jù)。所以，常規(guī)的爬蟲無法索引這些數(shù)據(jù)內(nèi)容，這是暗網(wǎng)的命名由來。

   為了能夠?qū)Π稻W(wǎng)數(shù)據(jù)進(jìn)行索引，需要研發(fā)與常規(guī)爬蟲機(jī)制不同的系統(tǒng)，這類爬蟲被稱做暗網(wǎng)爬蟲。暗網(wǎng)爬蟲的目的是將暗網(wǎng)數(shù)據(jù)從數(shù)據(jù)庫中挖掘出來，并將其加入搜索引擎的索引，這樣用戶在搜索時便可利用這些數(shù)據(jù)，增加信息覆蓋程度。

    目前大型搜索引擎服務(wù)提供商都將暗網(wǎng)挖掘作為重要研究方向，因為這直接關(guān)系到索引量的大小。在此領(lǐng)域的技術(shù)差異，將直接體現(xiàn)在搜索結(jié)果在全面性上，自然是競爭對手之間的必爭之地。Google目前將其作為重點研發(fā)方向，而百度的“阿拉丁計劃”目的也在于此。

   垂直網(wǎng)站提供的搜索界面，往往需要人工選擇或者填寫內(nèi)容，比如機(jī)票搜索需要選擇出發(fā)地、到達(dá)地和日期，圖書搜索需要指出書名或者作者。而暗網(wǎng)爬蟲為了能夠挖掘數(shù)據(jù)庫的記錄，必須模擬人的行為，填寫內(nèi)容并提交表單。對于暗網(wǎng)爬蟲來說，其技術(shù)挑戰(zhàn)有兩點:一是查詢組合太多，如果一一組合遍歷，那么會給被訪問網(wǎng)站造成太大壓力，所以如何精心組合查詢選項是個難點；第二點在于：有的查詢是文本框，比如圖書搜索中需要輸入書名，爬蟲怎樣才能夠填入合適的內(nèi)容？這個也頗具挑戰(zhàn)性。
幾大搜索引擎排名算法趣味解析 :上一篇
網(wǎng)頁更新收搜變動策略 :下一篇

<source id="qgsky"></source>

国产又黄又粗又长又大的视频-色婷婷久久一区二区爽爽爽-欧美日本韩国国产在线观-尹人香蕉琪琪在现观看

營銷推廣

服務(wù)器租用

企業(yè)郵箱

虛擬主機(jī)

網(wǎng)站程序

網(wǎng)站建設(shè)

域名注冊

前端開發(fā)

網(wǎng)站備案

移動互聯(lián)網(wǎng)

暗網(wǎng)抓取搜索引擎爬蟲

暗網(wǎng)抓取搜索引擎爬蟲

搜索引擎相關(guān)文章