寬度優(yōu)先遍歷是一種非常簡(jiǎn)單直觀且歷史 也悠久的遍歷方法,在搜索引擎爬蟲(chóng)一出現(xiàn)就開(kāi)始采用,新提出的抓取策略往往會(huì)將這種方法作為比較基準(zhǔn)。但應(yīng)該注意到的是,這種策略也是一種相當(dāng)強(qiáng)悍的方法,很多新方法實(shí)際效果不見(jiàn)得比寬度優(yōu)先遍歷策略好,所以至今這種方法也是很多實(shí)際爬蟲(chóng)系統(tǒng)優(yōu)先采用的抓取策略。
那么,什么是寬度優(yōu)先遍歷呢?其實(shí)上文所說(shuō)的“將新下載網(wǎng)頁(yè)包含的鏈接直接追加到待抓取URL隊(duì)列末尾”,這就是寬度優(yōu)先遍歷的思想。也就是說(shuō),這種方法并沒(méi)有明確提出和使用網(wǎng)頁(yè)重要性衡量標(biāo)準(zhǔn),只是機(jī)械地將新下載的網(wǎng)頁(yè)抽取鏈接,并追加到待抓取URL隊(duì)列中,以此安排URL的下載順序。
實(shí)驗(yàn)表明這種策略效果很很,雖然看似機(jī)械,但實(shí)際上的網(wǎng)頁(yè)抓取順序基本是按照網(wǎng)頁(yè)的重要性排序的。之所以如此,有研究人員認(rèn)為:如果某個(gè)網(wǎng)頁(yè)包含很多入鏈,那么更有可能被寬度優(yōu)先遍歷策略早早抓取,而入鏈個(gè)數(shù)從側(cè)面體現(xiàn)了網(wǎng)頁(yè)的重要性,即實(shí)際上寬度優(yōu)先遍歷策略隱含了一些網(wǎng)頁(yè)優(yōu)先級(jí)假設(shè)。