本文主要介紹百度蜘蛛(又稱百度機器人)Baiduspider,的工作原理。這樣有利于我們更好的理解搜索引擎工作原理更好的進行SEO 操作。
spider在工作的時候 ,會通過搜索引擎系統(tǒng)計算,來決定對哪些網(wǎng)站實施抓取,以及抓取的內容和頻率,搜索引擎的計算過程會參考您的網(wǎng)站在歷史中的表現(xiàn),比如內容是否足夠優(yōu)質,是否存在對用戶不友好的設置,是否存在過度的搜索引擎優(yōu)化 行為等 等。
當您的的網(wǎng)站產生新的內容頁面的時候,Baiduspider會通過互聯(lián)網(wǎng)中某個指向該頁面的鏈接進行訪問和抓取,如果您沒有設置任何外部鏈接指向網(wǎng)站中新增的內容頁面,則百度搜索機器人程序是無法對其進行抓取的,對于已經(jīng)被抓取過的內容,搜索引擎會對抓取的頁面進行記錄,并依據(jù)這些頁面對用戶的重要程度安排不同頻次的抓取更新工作。
搜索蜘蛛,搜索機器人
百度蜘蛛相關的知識:
1、蜘蛛的介紹
搜索引擎對互聯(lián)網(wǎng)網(wǎng)頁進行爬取工作是有爬蟲來完成的,爬蟲是一個爬取程序,通常我們稱為蜘蛛,因為百度的爬蟲命名是Baiduspider(中文譯名:百度蜘蛛)谷歌的爬蟲命名是GoogleBot(中文譯名:谷歌機器人),國內大部分人主要是做百度搜索引擎的排名優(yōu)化,所以普遍把搜索引擎的爬取程序叫蜘蛛。
2、蜘蛛的功能
搜索引擎的爬取程序,主要有鏈各個功能,負責兩項工作。
一是要去對目標頁面進行爬取,資源下載存儲到網(wǎng)頁庫。
二是對已下載的網(wǎng)頁進行鏈接識別,提取網(wǎng)頁中的鏈接,作為待抓取目標。
3、蜘蛛的抓取策略
蜘蛛不僅僅要對目標網(wǎng)頁進行抓取,也同時要發(fā)現(xiàn)新的URL,那么蜘蛛是怎么樣來收集URL的呢?搜索引擎抓取了A頁面信息,并且收集A頁面上所有的URL,去掉URL庫中已經(jīng)存在的鏈接,新的鏈接天界到待抓取隊列。對這些新的URL到底什么時間再去進行抓取,跟A頁面的權重有很大的關系。通常業(yè)內人士經(jīng)常說的引蜘蛛便是道蜘蛛訪問頻次較高的頁面留下自己網(wǎng)站的鏈接,讓蜘蛛更快地發(fā)現(xiàn)該鏈接。
4、蜘蛛的識別
先在IIS日志中找到蜘蛛的IP地址
點擊開始–運行–輸入cmd–點確定–輸入nslookup IP地址-回車。有Baiduspider信息。