新聞中心

鄭州熱點計算機科技有限公司

河南省鄭州市花園路國基路居易摩根2702室

稅號:914101050664919817

全國服務熱線:0371-55126589

郵箱:[email protected]

網址:www.hdykno.tw

 

詳解百度蜘蛛IP

您的當前位置: 首 頁 >> 祥云資訊 >> 前沿技術

詳解百度蜘蛛IP

發布日期:2015-10-23 14:22 來源:http://www.hdykno.tw 點擊:

百度蜘蛛是什么?百度蜘蛛是百度搜索引擎的一個爬行程序,百度蜘蛛的作用是手機互聯網的文字網頁、圖片、視頻、等內容,然后將這些內容分類建立索引數據庫排名,使用戶能在百度搜索中看到你相應的結果!筆者也在網上找了很久,都沒找到比較詳細百度蜘蛛IP以及其原理的深入淺出介紹,特意整理下網上的資料加上筆者本人的一些見解整理出這篇詳解百度蜘蛛!

詳解百度蜘蛛IP

 

從百度官方站長平臺上可以看出官方說是沒有所謂的高權重和低權重的蜘蛛IP分別的!不要亂聽信網上那些說的千篇一律的蜘蛛IP解釋,其實百度的蜘蛛IP據不完全統計都有差不多上百個,可以確定的是每個IP都有其不同的作用!

如果要知道一個百度蜘蛛的是好是壞,第一個首先要了解百度常用抓取返回碼示意和百度支持的返回碼(返回碼在網站日志里面可以看到,如果不知道怎么查看網站日志或者怎么分析網站日志請看:SEO之網站日志詳解):

一:網站日志里面最常見的返回值是404,這個代表網頁已經失效找不到,已經在庫中被刪除了,在段時間內如果蜘蛛發現這條URL也不會去抓取這個URL!

二:返回值503代表網頁臨時不可以訪問,如果網站臨時關閉或者寬度有限的情況可能會產生這種情況,如果返回503代碼,百度蜘蛛不會將這條URL直接刪除,同時在短時間內會訪問該URL幾次,如果該頁面已經恢復,那么蜘蛛會正常抓取,如果頁面URL繼續返回503的話,那么這條URL會被蜘蛛認為是失效鏈接,從而從數據庫里面刪除!

三:返回值如果是403的話代表網頁當前是禁止訪問的,這個時候就要檢查下自己的robots.txt看看是不是禁止抓取了當前頁面,如果是條新的URL,蜘蛛會暫時不抓取,會在短期內訪問該URL幾次,如果是已經收錄的,那么在訪問幾次后,如果能正常訪問的話就抓取,如果還是禁止訪問的話,該URL就會被認為是無效鏈接,從搜索引擎庫中刪除!

四:如果返回值是301的話代表是網頁重定向到新的URL,這個大部分站長都懂就不贅續了!

五:如果返回值是200的話,就代表是正常訪問,正常爬取該URL!

六:返回碼是304的話就代表,蜘蛛有來爬取但是爬取的頁面跟庫中的頁面是一致的那么返回就是304,一般情況下如果是靜態頁面不更新的話,那么極有可能就是返回304代碼!如果一個網站被搜索引擎抓取的次數以及頻率越多那么他是越有利于排名的,但是如果你的網站出現太多的304,那么一定會降低搜索引擎的抓取頻率以及次數,從而讓自己的網站排名比別人落一步

日志分析實例

2014-9-18 23:45:33 W3SVC7499849XX 61.145.116.XX GET /asyj/1112_5544.html – 80 – 123.125.71.78 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html[1] ) 304 0 0

其實這段文字是這樣理解的。

2014-9-18 23:45:33 ——代表訪問的日期和時間。W3SVC7499849XX ——代表虛擬主機的名稱61.145.116.XX ——代表訪問ip,GET ——代表訪問的方法,   /asyj/1112_5544.html——代表具體訪問的文件      80 ——代表訪問的端口    123.125.71.78 ——代表來源ip
Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html) ——代表訪問來源;這里是代表百度蜘蛛。注*換為w         ,304 ——304返回碼。這個也是這里介紹的重點。這里表示客戶端已經執行了GET,但文件未變化   ,前一個0 ——代表服務端傳送到客戶端的字節大小  ,后一個0 ——代表客戶端傳送到服務端的字節大小
從這一段日志。我們可以看出這次百度蜘蛛訪問的結果的返回了一個304狀態碼。那么搜索引擎就不會對我們的頁面進行再次抓取了

詳解百度蜘蛛IP之百度IP分析:剛上面百度官方平臺說了沒有什么降權蜘蛛和提權蜘蛛的分別,權重上升的過程中也不乏出現所謂的降權蜘蛛,如果你仔細觀察你的蜘蛛IP在對比網上所謂的提權和降權蜘蛛發現很多根本都是說不通的!

一:百度服務器有N個,同樣百度的蜘蛛IP也是有很多而且全國的線路都不一樣,移動電信等等都有,所以肯定會有不同線路的IP段!

二、不同線路蜘蛛ip來了后,對網站的體驗是不一樣的(比如電信蜘蛛讀數據超時、移動線路蜘蛛ip太胖爬行慢數據滯后),可能獲取多個不一樣的網頁快照,因此百度就需要按一定算法,將這些快照進行存儲到不同的地方,之后根據情況調整一些ip,比如電信蜘蛛讀數據超時再來爬行還是超時,那么可能持續一段時間這個ip會一直來(或者換其他電信ip來),當達到一定門閥值,再結合普通電信用戶的訪問情況來看,如果其他電信用戶同樣訪問超時,各種指標偏低,那么決定你的網站在電信這條線路來看是不可靠的。這樣就會形成上述所說的一些seoer看到了網站搜索量下降或排名下降的現象,這時這個超時的百度電信蜘蛛ip就被當成降權蜘蛛。換一種思路,如果百度換另一個電信ip來檢查你網站的訪問情況,結果這個蜘蛛ip現在是訪問良好的,其他普通電信用戶訪問指標也改善了,百度就決定你的網站質量可靠了,那么你的網站搜索量上升或排名上升。當然這僅僅是以蜘蛛ip訪問超時的情況來說明,網頁的質量因素較多,不再綜合來說。

因此研究特定段百度蜘蛛的ip是沒有多大價值的,建議研究不同線路的百度蜘蛛ip的訪問情況以及結合各線路的普通用戶的訪問情況,這樣才是價值王道。

詳解百度蜘蛛IP:本文沒有對百度各個蜘蛛IP的詳細解說,但是說出了本人的觀點,其實確實沒有所謂的降權提權蜘蛛,只要你把SEO個方面做好,打好基礎,做好細節,不管爬過來的是什么蜘蛛你的排名流量照樣能做上來!

相關標簽:網絡營銷

總部地址

未標題-3.png 河南省鄭州市花園路國基路居易摩根2702室

未標題-3.png 全國服務熱線:0371-55126589

未標題-3.png 稅號:914101050664919817

未標題-3.png 郵箱:[email protected]

  網址:www.hdykno.tw
二維碼
在線客服
分享
歡迎給我們留言
請在此輸入留言內容,我們會盡快與您聯系。
姓名
聯系人
電話
座機/手機號碼
白小姐旗袍38期