近期在很多QQ群看到Seoer問網(wǎng)站日志這么看的問題,甚至有做了3年以上的站長(zhǎng)發(fā)了一段普通用戶正常訪問返回200狀態(tài)碼的日志信息出來問是什么意思。個(gè)人認(rèn)為這是Seo中很基礎(chǔ)的知識(shí),但是被大多數(shù)站長(zhǎng)們忽略了。
首先說下日志記錄的內(nèi)容分類:1、訪客訪問信息,2、蜘蛛抓取信息。
1、訪客訪問信息的內(nèi)容:
2014-07-01 00:23:04 W3SVC50722105 61.155.150.92 GET /news/seo/690.html – 80 – 222.88.71.11 Mozilla/5.0+(Windows+NT+6.1;+WOW64;+rv:30.0)+Gecko/20100101+Firefox/30.0 200 0 0
這是一段用戶訪問記錄,內(nèi)容是7月1日凌晨12點(diǎn)23分的時(shí)候,IP地址為222.88.71.11的用戶使用火狐瀏覽器正常訪問了網(wǎng)站www.biz365.net/news/seo/690.html這篇文章。這條記錄信息需要注意的幾個(gè)點(diǎn):訪問網(wǎng)頁(yè)地址、訪問時(shí)間、IP地址以及返回狀態(tài)碼。前面幾條比較明晰,狀態(tài)碼可能是站長(zhǎng)們比較頭疼的。
2014-06-30 16:52:52 W3SVC50722105 61.155.150.92 GET /html/success.html – 80 – 202.108.4.123 Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+5.1) 404 0 64
這是一條用戶訪問404錯(cuò)誤信息,由于網(wǎng)站改版造成的目錄及網(wǎng)頁(yè)文件更改后遺癥。這些信息也有可能被蜘蛛抓取,所以需要提交百度改版信息或robots屏蔽或提交死鏈接來屏蔽蜘蛛的抓取。從而減少頁(yè)面404錯(cuò)誤抓取信息。
2014-06-20 17:35:10 W3SVC50722105 61.155.150.92 HEAD /www.biz365.net.rar – 80 – 27.150.236.228 Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+6.1;+Trident/4.0) 404 0 2
這是用戶用軟件批量掃描網(wǎng)站備份文件所造成的404錯(cuò)誤信息其中的一條,很多黑客用這種方法下載網(wǎng)站備份信息從而爆破網(wǎng)站達(dá)到網(wǎng)站入侵的方法,可以把網(wǎng)站備份信息單獨(dú)存放到web目錄外的其他目錄中預(yù)防這種情況發(fā)生以及通過屏蔽IP地址等方法解決。
2、蜘蛛抓取信息:
2014-06-30 16:00:46 W3SVC50722105 61.155.150.92 GET /product/qy/12.html – 80 – 66.249.64.36 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0
這是谷歌機(jī)器人對(duì)www. 域名/product/qy/12.html網(wǎng)頁(yè)文件的正常抓取信息。
2014-07-01 02:47:09 W3SVC50722105 61.155.150.92 GET /sitemap.xml – 80 – 123.125.71.106 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0
這是百度蜘蛛對(duì)www.域名/sitemap.xml網(wǎng)站地圖的304抓取信息,304代表著文件無修改,百度服務(wù)器已經(jīng)存放了相同信息,緩存信息無修改,無需更新。
日志分析是SEO中非常重要的一個(gè)操作。新網(wǎng)站上線可以通過日志進(jìn)行查看是否被蜘蛛抓取,網(wǎng)站是否存在404錯(cuò)誤進(jìn)行及時(shí)糾錯(cuò),是否被整站掃描下載等,這只是一些常見的日志用途。通過日志分析還可以得到很多其他的信息,希望廣大SEO從業(yè)人員可以對(duì)日志分析重視起來,通過日志分析或許更多的網(wǎng)站信息。