旗下網站(zhàn)
s

互聯網新聞

報道(dào)公司事件 · 傳播行(xíng)業動态

搜索引擎訪問網站(zhàn)返回碼最全解答(dá)

發布日期:2018-06-26    發布者:消息

  當搜索引擎蜘蛛抓取網站(zhàn)的時(shí)候,每一次都會(huì)有(yǒu)一個(gè)返回碼,表示本條內(nèi)容抓取的狀态,我們可(kě)以通(tōng)過網站(zhàn)日志(zhì)中查看這些(xiē)返回碼信息,來(lái)提升青島網站(zhàn)建設的優化效果。

  你(nǐ)把IIS日志(zhì)從空(kōng)間(jiān)下到自己電(diàn)腦(nǎo),然後用文本工具打開(kāi);

  2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

  分析下 200 0 0組成部分 sc-status(協議狀态) sc-substatus(協議子狀态) sc-win32-status(Win32狀态碼)

  sc-status(協議狀态): 200 連接成功

  sc-substatus(協議子狀态) :0 成功

  sc-win32-status(Win32狀态碼):0 代表抓取成功并帶回數(shù)據庫 ; 64 指定的網絡名不再可(kě)用

  1: 在這個(gè)訪問記錄裏面121.187.5.143是你(nǐ)服務器(qì)的IP地址,220.181.7.74 是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 為(wèi)蜘蛛訪問你(nǐ)的頁面 80是端口 GET是打開(kāi)方式 W3SVC1是記錄的文件夾,這裏說明(míng),bd蜘蛛已經訪問了你(nǐ)的category-8-b0-min1100-max2200.html 這個(gè)頁面,那(nà)麽最重要的是最後面的這個(gè)參數(shù)200 0 0。

  2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數(shù)據庫。這個(gè)時(shí)候你(nǐ)就放心了,這個(gè)頁面已經被bd收錄,但(dàn)是還(hái)沒有(yǒu)釋放出來(lái),bd更新時(shí)就可(kě)能釋放出來(lái)。

  3:200 0 64 網絡上(shàng)流傳着這麽三種解釋

  第164為(wèi)K站(zhàn)的前兆。

  第264的出現隻是64位操作(zuò)系統。

  第三:網絡不可(kě)達,由于某種原因無法完全打開(kāi)頁面,或者網絡不穩定這些(xiē)原因,導緻蜘蛛無法帶回頁面或者說不抓取該頁面,

  所以200 0 64的解釋也應該為(wèi):訪問了該頁面,但(dàn)并沒有(yǒu)任何抓取也沒有(yǒu)帶回數(shù)據庫。這種原因多(duō)為(wèi)空(kōng)間(jiān)不穩定、服務器(qì)不穩定。

  或者說是蜘蛛訪問了但(dàn)快照不更新

  4:304 0 0這個(gè)返回碼代表蜘蛛訪問的頁面沒有(yǒu)更新,和(hé)他之前來(lái)的時(shí)候是一樣的,所以看到這個(gè)不要擔心,蜘蛛來(lái)過,隻不過你(nǐ)沒有(yǒu)更新,所以他也不願意帶走這個(gè)頁面。

  5:404 0 0這個(gè)是代表404頁面,但(dàn)是有(yǒu)個(gè)很(hěn)嚴重的問題,這個(gè)返回碼告訴我們,蜘蛛來(lái)到了404頁面并把他帶走了

  ,要是這樣的話(huà)基本上(shàng)你(nǐ)要倒黴了,要你(nǐ)有(yǒu)太多(duō)的404,那(nà)麽蜘蛛就會(huì)不斷是抓取,不斷的帶走,這樣會(huì)造成無數(shù)的重複頁面,最終導緻K站(zhàn)或者降權,

  正确的返回碼是404 0 64 這就代表蜘蛛沒有(yǒu)抓取你(nǐ)這個(gè)頁面。 (好像是內(nèi)容有(yǒu)死鏈的意思)

  6:500錯誤500錯誤是服務器(qì)內(nèi)部錯誤,是由程序的錯誤造成的,我不懂程序,但(dàn)是500錯誤是會(huì)給你(nǐ)減分的,這點基本的邏輯都可(kě)以想的到,要發現500錯誤,馬上(shàng)查看是哪個(gè)頁面的,然後去修正以下錯誤吧(ba)!

  7:302要在日志(zhì)中發現302的返回碼也是需要注意的,302為(wèi)臨時(shí)重定向,要你(nǐ)是長期的将這個(gè)頁面重定向到另一個(gè)頁面,麻煩你(nǐ)使用301永久重定向,要是302的話(huà)bd蜘蛛下次來(lái)還(hái)會(huì)訪問這個(gè)頁面,這樣又會(huì)造成複制(zhì)大(dà)量頁面的問題,結果肯定是K,所以,抽空(kōng)檢查以下。

  每個(gè)網絡蜘蛛都有(yǒu)自己的名字,在抓取網頁的時(shí)候,都會(huì)向網站(zhàn)标明(míng)自己的身份。網絡蜘蛛在抓取網頁的時(shí)候會(huì)發送一個(gè)請(qǐng)求,這個(gè)請(qǐng)求中就有(yǒu)一個(gè)字段為(wèi)User-agent,用于标識此網絡蜘蛛的身份。例如Google網絡蜘蛛的标識為(wèi)GoogleBot,Baidu網絡蜘蛛的标識為(wèi)BaiDuSpider,Yahoo網絡蜘蛛的标識為(wèi)Inktomi Slurp。

  返回碼大(dà)全:

  2xx 成功

  200 正常;請(qǐng)求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用于處理(lǐ),但(dàn)處理(lǐ)尚未完成。

  203 正常;部分信息 — 返回的信息隻是一部分。

  204 正常;無響應 — 已接收請(qǐng)求,但(dàn)不存在要回送的信息。

  3xx 重定向

  301 已移動 — 請(qǐng)求的數(shù)據具有(yǒu)新的位置且更改是永久的。

  302 已找到 — 請(qǐng)求的數(shù)據臨時(shí)具有(yǒu)不同 URI。

  303 請(qǐng)參閱其它 — 可(kě)在另一 URI 下找到對請(qǐng)求的響應,且應使用 GET 方法檢索此響應。

  304 未修改 — 未按預期修改文檔。

  305 使用代理(lǐ) — 必須通(tōng)過位置字段中提供的代理(lǐ)來(lái)訪問請(qǐng)求的資源。

  306 未使用 — 不再使用;保留此代碼以便将來(lái)使用。

  4xx 客戶機中出現的錯誤

  400 錯誤請(qǐng)求 — 請(qǐng)求中有(yǒu)語法問題,或不能滿足請(qǐng)求。

  401 未授權 — 未授權客戶機訪問數(shù)據。

  402 需要付款 — 表示計(jì)費系統已有(yǒu)效。

  403 禁止 — 即使有(yǒu)授權也不需要訪問。

  404 找不到 — 服務器(qì)找不到給定的資源;文檔不存在。

  407 代理(lǐ)認證請(qǐng)求 — 客戶機首先必須使用代理(lǐ)認證自身。

  415 介質類型不受支持 — 服務器(qì)拒絕服務請(qǐng)求,因為(wèi)不支持請(qǐng)求實體(tǐ)的格式。

  5xx 服務器(qì)中出現的錯誤

  500 內(nèi)部錯誤 — 因為(wèi)意外情況,服務器(qì)不能完成請(qǐng)求。

  501 未執行(xíng) — 服務器(qì)不支持請(qǐng)求的工具。

  502 錯誤網關 — 服務器(qì)接收到來(lái)自上(shàng)遊服務器(qì)的無效響應。

  503 無法獲得(de)服務 — 由于臨時(shí)過載或維護,服務器(qì)無法處理(lǐ)請(qǐng)求。

  如果在網站(zhàn)上(shàng)有(yǒu)訪問日志(zhì)記錄,網站(zhàn)管理(lǐ)員就能知道(dào),哪些(xiē)搜索引擎的網絡蜘蛛過來(lái)過,什麽時(shí)候過來(lái)的,以及讀了多(duō)少(shǎo)數(shù)據等等。

  根據不同的IP我們可(kě)以分析網站(zhàn)是個(gè)怎樣的狀态.下面就按照我IIS日記上(shàng)的百度蜘蛛IP為(wèi)例:

  123.125.68.*這個(gè)蜘蛛經常來(lái),别的來(lái)的少(shǎo),表示網站(zhàn)可(kě)能要進入沙盒了,或被者降權。

  220.181.68.*每天這個(gè)IP 段隻增不減很(hěn)有(yǒu)可(kě)能進沙盒或K站(zhàn)。

  220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你(nǐ)東西。

  121.14.89.*這個(gè)ip段作(zuò)為(wèi)度過新站(zhàn)考察期。

  203.208.60.*這個(gè)ip段出現在新站(zhàn)及站(zhàn)點有(yǒu)不正常現象後。

  210.72.225.*這個(gè)ip段不間(jiān)斷巡邏各站(zhàn)。

  125.90.88.* 廣東茂名市電(diàn)信也屬于百度蜘蛛IP 主要造成成分,是新上(shàng)線站(zhàn)較多(duō),還(hái)有(yǒu)使用過站(zhàn)長工具,或SEO綜合檢測造成的。

  220.181.108.95這個(gè)是百度抓取首頁的專用IP,如是220.181.108段的話(huà),基本來(lái)說你(nǐ)的網站(zhàn)會(huì)天天隔夜快照,絕對錯不了的,我保證。

  220.181.108.92 同上(shàng)98%抓取首頁,可(kě)能還(hái)會(huì)抓取其他 (不是指內(nèi)頁)220.181段屬于權重IP段此段爬過的文章或首頁基本24小(xiǎo)時(shí)放出來(lái)。

  123.125.71.106 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。

  220.181.108.91屬于綜合的,主要抓取首頁和(hé)內(nèi)頁或其他,屬于權重IP 段,爬過的文章或首頁基本24小(xiǎo)時(shí)放出來(lái)。

  220.181.108.75重點抓取更新文章的內(nèi)頁達到90%,8%抓取首頁,2%其他。權重IP 段,爬過的文章或首頁基本24小(xiǎo)時(shí)放出來(lái)。

  220.181.108.86專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  123.125.71.95 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。

  123.125.71.97 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。

  220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  123.125.71.117 抓取內(nèi)頁收錄的,權重較低(dī),爬過此段的內(nèi)頁文章不會(huì)很(hěn)快放出來(lái),因不是原創或采集文章。

  220.181.108.83專用抓取首頁IP 權重段,一般返回代碼是304 0 0 代表未更新。

  注:以上(shàng)IP尾數(shù)還(hái)有(yǒu)很(hěn)多(duō),但(dàn)段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁收錄的權重比較低(dī).可(kě)能由于你(nǐ)采集文章或拼文章暫時(shí)被收錄但(dàn)不

  放出來(lái).(意思也就是說待定)。

  220.181.108.*段IP主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,絕對24小(xiǎo)時(shí)內(nèi)放出來(lái)和(hé)隔夜快照的,這點我可(kě)以保證!

  一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站(zhàn)沒更新,蜘蛛來(lái)過,如果是 200 0 64别擔心這不是K站(zhàn),可(kě)能是網站(zhàn)是動态的,

  所以返回就是這個(gè)代碼。

Copyright 大(dà)連網龍科技(jì) 版權所有(yǒu)   html - txt -

電(diàn)話(huà)
客服