在爬蟲系統(tǒng)中,待抓取URL隊(duì)列是很關(guān)鍵的部分,需要爬蟲抓取的網(wǎng)頁(yè)URL在其中順序排列,形成一個(gè)隊(duì)列結(jié)構(gòu),調(diào)度程序每次從隊(duì)列頭取出某個(gè)URL,發(fā)送經(jīng)網(wǎng)頁(yè)下載器下載頁(yè)面內(nèi)容,每個(gè)新下載的頁(yè)面包含的URL會(huì)追加到待抓取URL隊(duì)列的末尾,如此形成循環(huán),整個(gè)爬蟲系統(tǒng)可以說是由這個(gè)隊(duì)列驅(qū)動(dòng)運(yùn)轉(zhuǎn)的。 待抓取URL隊(duì)列中頁(yè)面URL順序...
[爬蟲抓取特性]