批量型爬蟲(batch crawler):批量型爬蟲有比較明確的抓取范圍和目標,當爬蟲達到這個設(shè)定的目標后,即停止抓取過程。至于具體目標可能各異,也許是設(shè)定抓取一定數(shù)量的網(wǎng)頁即可,也許是設(shè)定抓取消耗的時間等,不一而足。
增量型爬蟲(incremental crawler):增量型爬蟲與批量型爬蟲不同,會保持持續(xù)不斷的抓取,對于抓取到網(wǎng)頁,要定期更新,因為互聯(lián)網(wǎng)網(wǎng)頁處于不斷變化 中,新增網(wǎng)頁、網(wǎng)頁被刪除或者網(wǎng)頁內(nèi)容更改都很常見,而增量型爬蟲需要及時反映這種變化,所以處于持續(xù)不斷的抓取過程中,不是在抓取新網(wǎng)頁,就是在更新已在網(wǎng)頁。通用的商業(yè)搜索引擎爬蟲基本都屬此類。
垂直型爬蟲(focused crawler):垂直型爬蟲關(guān)注特定主題內(nèi)容或者屬于特定行業(yè)的網(wǎng)頁,比如對于健康網(wǎng)站來說,只需要從互聯(lián)網(wǎng)頁面里找到與健康相關(guān)的頁面內(nèi)容即可,其他行業(yè)的內(nèi)容不在考慮范圍。垂直型爬蟲一個最大的特點和難點就是:如何識別網(wǎng)頁內(nèi)容是否屬于指定 行業(yè)或者主題。從節(jié)省系統(tǒng)資源的角度來說,不太可能把所有互聯(lián)網(wǎng)頁面下載下來之后再去篩選,這樣浪費資源就太過分了,往往需要爬蟲在抓取階段就能夠動態(tài)識別某個網(wǎng)址是否與主題相關(guān),并盡量不去抓取無關(guān)頁面,以達到節(jié)省資源的目的。垂直搜索網(wǎng)站或者垂直行業(yè)網(wǎng)站往往需要此種類型的爬蟲。