熱門(mén)搜索:

你當(dāng)前所在的位置:首頁(yè)  >  網(wǎng)站運(yùn)營(yíng)資訊  >  百度爬蟲(chóng)的種類和規(guī)律

百度爬蟲(chóng)的種類和規(guī)律
發(fā)布時(shí)間:2021-12-29      點(diǎn)擊次數(shù):2931

今天開(kāi)始探討正式內(nèi)容的第一講了,開(kāi)始講百度蜘蛛。今天針對(duì)廣泛流傳的百度蜘蛛IP類型做一下探討。咱們知道,知識(shí)零散的點(diǎn),經(jīng)驗(yàn)是點(diǎn)的連線。所以大家在學(xué)習(xí)的時(shí)候養(yǎng)成大局觀,比如說(shuō),我們現(xiàn)在在這個(gè)位置。


探索方法

通過(guò)對(duì)7個(gè)網(wǎng)站的爬蟲(chóng)日志做追蹤,將百度蜘蛛分為收錄蜘蛛、首頁(yè)收錄蜘蛛、快照蜘蛛三大類。

用控制變量法,通過(guò)現(xiàn)象看規(guī)律,通過(guò)規(guī)律看本質(zhì),通過(guò)本質(zhì)講對(duì)策。

通過(guò)線上實(shí)驗(yàn)來(lái)一步一步做驗(yàn)證推導(dǎo)過(guò)程。

百度蜘蛛類型有哪幾種

下圖是網(wǎng)上廣泛流傳的百度蜘蛛IP類型說(shuō)明,其中123開(kāi)頭的認(rèn)為是降權(quán)蜘蛛,220開(kāi)頭的一般認(rèn)為是權(quán)重蜘蛛。

到底有木有降權(quán)蜘蛛

看了百度站長(zhǎng)的平臺(tái)的回復(fù)(年代比較久遠(yuǎn)),百度官方回復(fù)是“沒(méi)有”。

http://bbs.zhanzhang.baidu.com/thread-6387-1-1.html


我也認(rèn)為蜘蛛沒(méi)有權(quán)重高低之分

為什么分降權(quán)蜘蛛、權(quán)重蜘蛛之說(shuō)?

如果蜘蛛有權(quán)重高低之說(shuō),難道百度一開(kāi)始就知道你的網(wǎng)站質(zhì)量嗎

百度蜘蛛分類的猜想

百度爬蟲(chóng)是干什么的,就是把你的網(wǎng)站頁(yè)面內(nèi)容扒下來(lái),然后把數(shù)據(jù)拆分為標(biāo)題、摘要、頭圖、正文等結(jié)構(gòu)化數(shù)據(jù),放到百度的數(shù)據(jù)庫(kù)里面,提供給用戶搜索。

但是網(wǎng)頁(yè)數(shù)量以百億計(jì),每個(gè)頁(yè)面都有快照備份是不現(xiàn)實(shí)的。

大膽猜想,百度蜘蛛應(yīng)該有功能之分,并未高低權(quán)重之說(shuō)。

現(xiàn)象1:內(nèi)頁(yè)爬取規(guī)律

新上的某個(gè)網(wǎng)頁(yè)的爬取記錄,我們可以看到,通常都是123開(kāi)頭的蜘蛛先行,然后220開(kāi)頭的蜘蛛后行。


然后隔1-2天,快照必會(huì)有更新。比如2019年7月27號(hào)220開(kāi)頭蜘蛛訪問(wèn)之后,7月28日快照就更新了。


現(xiàn)象2 首頁(yè)爬取規(guī)律

看下圖,首頁(yè)的百度爬蟲(chóng)日志,19年6月26上線后,基本上也是123開(kāi)頭的爬蟲(chóng)先行,220爬蟲(chóng)后行,隔天快照更新。


現(xiàn)象3 頁(yè)面404后的百度爬取規(guī)律

我認(rèn)為實(shí)驗(yàn)了2個(gè)404頁(yè)面,123開(kāi)頭的爬蟲(chóng)爬取后,一般是2次404之后,不再派爬蟲(chóng)來(lái)爬了。


現(xiàn)象4 劣質(zhì)頁(yè)面爬取規(guī)律

我也試驗(yàn)了隨機(jī)段落混合而成的內(nèi)容(比如下圖妹子不錯(cuò),但妹子上面的文字很爛),百度123開(kāi)頭蜘蛛抓了一次就再也不抓了,5月11號(hào)上線,至今無(wú)快照。

看來(lái)百度對(duì)隨機(jī)拼湊的內(nèi)容還是有識(shí)別的。

上一條:【seo優(yōu)化】新網(wǎng)站關(guān)鍵字優(yōu)化要怎么做呢
下一條:單頁(yè)網(wǎng)站如何做優(yōu)化
您可能感興趣的文章