當搜索引擎蜘蛛抓取網站(zhàn)的時(shí)候,每一次都會(huì)有(yǒu)一個(gè)返回碼,表示本條內(nèi)容抓取的狀态,我們可(kě)以通(tōng)過網站(zhàn)日志(zhì)中查看這些(xiē)返回碼信息,來(lái)提升青島網站(zhàn)建設的優化效果。
你(nǐ)把IIS日志(zhì)從空(kōng)間(jiān)下到自己電(diàn)腦(nǎo),然後用文本工具打開(kāi);
2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0
分析下 200 0 0組成部分 sc-status(協議狀态) sc-substatus(協議子狀态) sc-win32-status(Win32狀态碼)
sc-status(協議狀态): 200 連接成功
sc-substatus(協議子狀态) :0 成功
sc-win32-status(Win32狀态碼):0 代表抓取成功并帶回數(shù)據庫 ; 64 指定的網絡名不再可(kě)用
1: 在這個(gè)訪問記錄裏面121.187.5.143是你(nǐ)服務器(qì)的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 為(wèi)蜘蛛訪問你(nǐ)的頁面 80是端口 GET是打開(kāi)方式 W3SVC1是記錄的文件夾,這裏說明(míng),bd蜘蛛已經訪問了你(nǐ)的category-8-b0-min1100-max2200.html 這個(gè)頁面,那(nà)麽最重要的是最後面的這個(gè)參數(shù)200 0 0。
2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數(shù)據庫。這個(gè)時(shí)候你(nǐ)就放心了,這個(gè)頁面已經被bd收錄,但(dàn)是還(hái)沒有(yǒu)釋放出來(lái),bd更新時(shí)就可(kě)能釋放出來(lái)。
3:200 0 64 網絡上(shàng)流傳着這麽三種解釋
第164為(wèi)K站(zhàn)的前兆。
第264的出現隻是64位操作(zuò)系統。
第三:網絡不可(kě)達,由于某種原因無法完全打開(kāi)頁面,或者網絡不穩定這些(xiē)原因,導緻蜘蛛無法帶回頁面或者說不抓取該頁面,
所以200 0 64的解釋也應該為(wèi):訪問了該頁面,但(dàn)并沒有(yǒu)任何抓取也沒有(yǒu)帶回數(shù)據庫。這種原因多(duō)為(wèi)空(kōng)間(jiān)不穩定、服務器(qì)不穩定。
或者說是蜘蛛訪問了但(dàn)快照不更新
4:304 0 0這個(gè)返回碼代表蜘蛛訪問的頁面沒有(yǒu)更新,和(hé)他之前來(lái)的時(shí)候是一樣的,所以看到這個(gè)不要擔心,蜘蛛來(lái)過,隻不過你(nǐ)沒有(yǒu)更新,所以他也不願意帶走這個(gè)頁面。
5:404 0 0這個(gè)是代表404頁面,但(dàn)是有(yǒu)個(gè)很(hěn)嚴重的問題,這個(gè)返回碼告訴我們,蜘蛛來(lái)到了404頁面并把他帶走了
,要是這樣的話(huà)基本上(shàng)你(nǐ)要倒黴了,要你(nǐ)有(yǒu)太多(duō)的404,那(nà)麽蜘蛛就會(huì)不斷是抓取,不斷的帶走,這樣會(huì)造成無數(shù)的重複頁面,最終導緻K站(zhàn)或者降權,
正确的返回碼是404 0 64 這就代表蜘蛛沒有(yǒu)抓取你(nǐ)這個(gè)頁面。 (好像是內(nèi)容有(yǒu)死鏈的意思)
6:500錯誤500錯誤是服務器(qì)內(nèi)部錯誤,是由程序的錯誤造成的,我不懂程序,但(dàn)是500錯誤是會(huì)給你(nǐ)減分的,這點基本的邏輯都可(kě)以想的到,要發現500錯誤,馬上(shàng)查看是哪個(gè)頁面的,然後去修正以下錯誤吧(ba)!
7:302要在日志(zhì)中發現302的返回碼也是需要注意的,302為(wèi)臨時(shí)重定向,要你(nǐ)是長期的将這個(gè)頁面重定向到另一個(gè)頁面,麻煩你(nǐ)使用301永久重定向,要是302的話(huà)bd蜘蛛下次來(lái)還(hái)會(huì)訪問這個(gè)頁面,這樣又會(huì)造成複制(zhì)大(dà)量頁面的問題,結果肯定是K,所以,抽空(kōng)檢查以下。
每個(gè)網絡蜘蛛都有(yǒu)自己的名字,在抓取網頁的時(shí)候,都會(huì)向網站(zhàn)标明(míng)自己的身份。網絡蜘蛛在抓取網頁的時(shí)候會(huì)發送一個(gè)請(qǐng)求,這個(gè)請(qǐng)求中就有(yǒu)一個(gè)字段為(wèi)User-agent,用于标識此網絡蜘蛛的身份。例如Google網絡蜘蛛的标識為(wèi)GoogleBot,Baidu網絡蜘蛛的标識為(wèi)BaiDuSpider,Yahoo網絡蜘蛛的标識為(wèi)Inktomi Slurp。
返回碼大(dà)全:
2xx 成功
200 正常;請(qǐng)求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理(lǐ),但(dàn)處理(lǐ)尚未完成。
203 正常;部分信息 — 返回的信息隻是一部分。
204 正常;無響應 — 已接收請(qǐng)求,但(dàn)不存在要回送的信息。
3xx 重定向
301 已移動 — 請(qǐng)求的數(shù)據具有(yǒu)新的位置且更改是永久的。
302 已找到 — 請(qǐng)求的數(shù)據臨時(shí)具有(yǒu)不同 URI。
303 請(qǐng)參閱其它 — 可(kě)在另一 URI 下找到對請(qǐng)求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理(lǐ) — 必須通(tōng)過位置字段中提供的代理(lǐ)來(lái)訪問請(qǐng)求的資源。
306 未使用 — 不再使用;保留此代碼以便将來(lái)使用。
4xx 客戶機中出現的錯誤
400 錯誤請(qǐng)求 — 請(qǐng)求中有(yǒu)語法問題,或不能滿足請(qǐng)求。
401 未授權 — 未授權客戶機訪問數(shù)據。
402 需要付款 — 表示計(jì)費系統已有(yǒu)效。
403 禁止 — 即使有(yǒu)授權也不需要訪問。
404 找不到 — 服務器(qì)找不到給定的資源;文檔不存在。
407 代理(lǐ)認證請(qǐng)求 — 客戶機首先必須使用代理(lǐ)認證自身。
415 介質類型不受支持 — 服務器(qì)拒絕服務請(qǐng)求,因為(wèi)不支持請(qǐng)求實體(tǐ)的格式。
5xx 服務器(qì)中出現的錯誤
501 未執行(xíng) — 服務器(qì)不支持請(qǐng)求的工具。
502 錯誤網關 — 服務器(qì)接收到來(lái)自上(shàng)遊服務器(qì)的無效響應。
503 無法獲得(de)服務 — 由于臨時(shí)過載或維護,服務器(qì)無法處理(lǐ)請(qǐng)求。
如果在網站(zhàn)上(shàng)有(yǒu)訪問日志(zhì)記錄,網站(zhàn)管理(lǐ)員就能知道(dào),哪些(xiē)搜索引擎的網絡蜘蛛過來(lái)過,什麽時(shí)候過來(lái)的,以及讀了多(duō)少(shǎo)數(shù)據等等。
根據不同的IP我們可(kě)以分析網站(zhàn)是個(gè)怎樣的狀态.下面就按照我IIS日記上(shàng)的百度蜘蛛IP為(wèi)例:
123.125.68.*這個(gè)蜘蛛經常來(lái),别的來(lái)的少(shǎo),表示網站(zhàn)可(kě)能要進入沙盒了,或被者降權。
220.181.68.*每天這個(gè)IP 段隻增不減很(hěn)有(yǒu)可(kě)能進沙盒或K站(zhàn)。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你(nǐ)東西。
121.14.89.*這個(gè)ip段作(zuò)為(wèi)度過新站(zhàn)考察期。
203.208.60.*這個(gè)ip段出現在新站(zhàn)及站(zhàn)點有(yǒu)不正常現象後。
210.72.225.*這個(gè)ip段不間(jiān)斷巡邏各站(zhàn)。
125.90.88.* 廣東茂名市電(diàn)信也屬于百度蜘蛛IP 主要造成成分,是新上(shàng)線站(zhàn)較多(duō),還(hái)有(yǒu)使用過站(zhàn)長工具,或SEO綜合檢測造成的。
220.181.108.95這個(gè)是百度抓取首頁的專用IP,如是220.181.108段的話(huà),基本來(lái)說你(nǐ)的網站(zhàn)會(huì)天天隔夜快照,絕對錯不了的,我保證。
220.181.108.92 同上(shàng)98%抓取首頁,可(kě)能還(hái)會(huì)抓取其他 (不是指內(nèi)頁)220.181段屬于權重IP段此段爬過的文章或首頁基本24小(xiǎo)時(shí)放出來(lái)。
123.125.71.106 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁和(hé)內(nèi)頁或其他,屬于權重IP 段,爬過的文章或首頁基本24小(xiǎo)時(shí)放出來(lái)。
220.181.108.75重點抓取更新文章的內(nèi)頁達到90%,8%抓取首頁,2%其他。權重IP 段,爬過的文章或首頁基本24小(xiǎo)時(shí)放出來(lái)。
220.181.108.86專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。
123.125.71.97 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。
220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。
220.181.108.83專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。
注:以上(shàng)IP尾數(shù)還(hái)有(yǒu)很(hěn)多(duō),但(dàn)段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁收錄的權重比較低(dī).可(kě)能由于你(nǐ)采集文章或拼文章暫時(shí)被收錄但(dàn)不
放出來(lái).(意思也就是說待定)。
220.181.108.*段IP主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,絕對24小(xiǎo)時(shí)內(nèi)放出來(lái)和(hé)隔夜快照的,這點我可(kě)以保證!
一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站(zhàn)沒更新,蜘蛛來(lái)過,如果是 200 0 64别擔心這不是K站(zhàn),可(kě)能是網站(zhàn)是動态的,
所以返回就是這個(gè)代碼。