百度蜘蛛,英文名是“Baiduspider”是百度搜索引擎的一個(gè)自動(dòng)程序。它的作用是訪(fǎng)問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容,建立索引數(shù)據(jù)庫(kù),使用戶(hù)能在百度搜索引擎搜索到您網(wǎng)站的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容。Baiduspider是一套人自己編制的程序,百度蜘蛛的爬行有一定的規(guī)律可尋,以下來(lái)看看百度蜘蛛到底是如何爬行的呢?
不知百度蜘蛛是不是喜歡高效率的爬行,有時(shí)百度蜘蛛能在一兩分鐘內(nèi)爬行幾百次。因?yàn)橹┲霗C(jī)器人,它爬行一段時(shí)間過(guò)后,蜘蛛機(jī)器人再去運(yùn)算程序,看是否是原來(lái)收錄過(guò)的,是否是原創(chuàng)什么的,是否應(yīng)該收錄等等。畢竟這樣的爬行不會(huì)經(jīng)常出現(xiàn),只是偶有現(xiàn)身。
穩(wěn)定式爬行,指的是每天24小時(shí),每一個(gè)小時(shí)的爬行量相差不大。穩(wěn)定式爬行往往是對(duì)新站才會(huì)出現(xiàn),對(duì)于百度認(rèn)為你站是成熟期的,如果出現(xiàn)了這種爬行方式,你可一定要小心了,這種爬行方式,你的站多半會(huì)被降權(quán)。第二天就能看出來(lái),首頁(yè)的快照日期,一定不會(huì)給你更新的。就好比一個(gè)人做任何事情時(shí)的,沒(méi)有了激情,也就沒(méi)有了爆發(fā)力,當(dāng)然不會(huì)賣(mài)力干事的,不賣(mài)力干事,你說(shuō)效果會(huì)有多好。
什么是確認(rèn)式爬行呢?就是指你網(wǎng)站更新一個(gè)內(nèi)容過(guò)后,百度第一次爬行過(guò)后,一定不會(huì)給你放出收錄來(lái),百度蜘蛛還要進(jìn)行第二次爬行再運(yùn)算、比較計(jì)算的,如果認(rèn)為你這個(gè)更新內(nèi)容有必要收錄,百度蜘蛛會(huì)進(jìn)行第三次爬行,正常情況下百度蜘蛛不會(huì)進(jìn)行第四次爬行。第三次確認(rèn)過(guò)后,百度蜘蛛就會(huì)慢慢的給你放出收錄。
這種確認(rèn)式爬行方式,就有點(diǎn)類(lèi)似與谷歌的爬行方式。百度蜘蛛機(jī)器人爬行首頁(yè)的方式還是同原來(lái)一樣,一天不知要爬行多少次首頁(yè),其它頁(yè)面,如果百度認(rèn)為有必要進(jìn)行計(jì)算的話(huà),就會(huì)進(jìn)行第二次確認(rèn)爬行。
以上說(shuō)了這么多,大家可能有疑問(wèn)了,百度蜘蛛來(lái)沒(méi)有,我怎么知道,這個(gè)很簡(jiǎn)單你可以去查看服務(wù)器的記錄日志。你如果查看不了記錄日志的話(huà),看一下網(wǎng)站后臺(tái)有沒(méi)有記錄蜘蛛爬行記錄的。做百度優(yōu)化的朋友都知道,百度相對(duì)Google而言是比較難做的,但“世上無(wú)難事,只怕有心人?!敝灰眯娜プ?,相信成功近在咫尺。
有的朋友發(fā)現(xiàn)自己的網(wǎng)站收錄一段時(shí)間后就不再收錄,是什么原因呢?我們來(lái)看看。
你做了多少時(shí)間了?有沒(méi)有到各搜或各導(dǎo)航站提交過(guò)網(wǎng)址?我想你既然做了兩個(gè)站,那么就可以對(duì)提交網(wǎng)址這些事情已懂得了。你的站如果有向各搜和各導(dǎo)航站點(diǎn)提交過(guò)網(wǎng)址,而且建站時(shí)間已超過(guò)了30天。那么就應(yīng)該是被搜錄了,如果已超出這些時(shí)間還沒(méi)被收錄。那么多半就是你的主頁(yè)里含有百度引擎回避的關(guān)建文字或代碼,或是你網(wǎng)頁(yè)里有百度設(shè)定頻閉的鏈接網(wǎng)址,或是你網(wǎng)頁(yè)里與被封的網(wǎng)站有鏈接。又或是與SQ網(wǎng)站,F(xiàn)F網(wǎng)站有連接,又或是你的網(wǎng)頁(yè)里有風(fēng)險(xiǎn)代碼。又或是你的主機(jī)空間常常不穩(wěn)定,常常無(wú)法訪(fǎng)問(wèn),這些都是沒(méi)被收錄主頁(yè)的重要因素。一搬來(lái)說(shuō),如果是新網(wǎng)站,百度對(duì)新站的收錄還是比較極積的,約最長(zhǎng)不超過(guò)30天。最好自己檢查一下頁(yè)面里有無(wú)那些夾雜有SQ網(wǎng)站,F(xiàn)F網(wǎng)站的鏈接代碼,有的話(huà)趕緊刪除。
有很多人都在埋怨百度蜘蛛為什么不爬我的網(wǎng)站呢?是什么原因呢?其實(shí)百度蜘蛛每天都在爬行網(wǎng)站的,特別是新網(wǎng)站,為什么會(huì)有這樣的原因呢?有以下幾點(diǎn):
第一點(diǎn):是你網(wǎng)站沒(méi)有新的內(nèi)容,要堅(jiān)持更新。
第二點(diǎn):是更新內(nèi)容不豐富,不是原創(chuàng)的東西,百度蜘蛛不喜歡,也就不會(huì)抓取你網(wǎng)站的內(nèi)容。
第三點(diǎn):就是網(wǎng)站本身的問(wèn)題。
不僅僅就這三個(gè)原因,其實(shí)你可以在優(yōu)化的時(shí)候自己總結(jié)出來(lái)規(guī)律就可以了解了,其實(shí)百度蜘蛛和人一樣,每一個(gè)人都喜歡看有吸引力的文章,都喜歡別人寫(xiě)出來(lái)的東西,像情感小說(shuō)一類(lèi)的很多人都喜歡,那是寫(xiě)出來(lái)自己的情感,讓讀者也能體會(huì)到里面的情節(jié)是不是和自己一樣呢?這就是內(nèi)容的豐富與吸引力。
百度對(duì)網(wǎng)站的更新一般是以周為單位的。
【星期一】:百度蜘蛛也剛上班吧,呵呵,爬行非常勤快。所以是我們更新文章的好時(shí)候,一般是早上8-10點(diǎn)為最好的更新文章時(shí)間,因?yàn)檫@個(gè)時(shí)間也是大型網(wǎng)站一天更新最勤快的時(shí)候。很多站長(zhǎng)都是夜貓子,這時(shí)候更新的人會(huì)少點(diǎn)。
【星期二】:如果周一你沒(méi)有更新的話(huà),周二還可以去補(bǔ)救,因?yàn)橹苋P(guān)鍵詞會(huì)有小小的更新,可能影響排名。
【星期三】:在這天百度一周的更新就開(kāi)始了,這天也是整個(gè)星期最動(dòng)蕩的一天,可能你的網(wǎng)站快照回退得很遠(yuǎn),可能你的排名升的很高,但是這天不能決定整個(gè)星期,關(guān)鍵在星期四。
【星期四】:星期三也許是百度服務(wù)器調(diào)整,到了星期四的凌晨(一般是4點(diǎn)左右)百度會(huì)把星期三的動(dòng)蕩穩(wěn)定住,這一天的更新會(huì)決定下個(gè)星期的排名,而且基本不會(huì)動(dòng)了。
【星期五】:這天可以輕松許多,因?yàn)樾瞧谒牡母屡琶呀?jīng)定型了,可以更新下文章。筆者的好幾個(gè)網(wǎng)站這天都不更新的,有時(shí)天天更新也不是好事。
【星期六】:這天也會(huì)有小小的更新,但是沒(méi)有星期四那么大,也不會(huì)像星期三那樣動(dòng)蕩,可以看做是星期四更新的補(bǔ)充。
【星期天】:可以舒口氣,休息一天,下個(gè)星期再接再厲。站長(zhǎng)朋友們一周可以休息幾天了,周二,周五和周日。
每星期的小更新基本是這樣,每個(gè)月的大更新一般有一到兩次,不是11號(hào)就是26號(hào),也可能兩天都更新。 )
更新規(guī)律有所變化,可能是因?yàn)榉?wù)器的調(diào)整,應(yīng)該過(guò)個(gè)把月會(huì)穩(wěn)定下來(lái)。百度的更新只是把積累的變化顯示出來(lái)的,別忘了,百度蜘蛛可是時(shí)刻在爬行的,所以不能太偷懶了,該認(rèn)真更新的時(shí)候還是要認(rèn)真更新。
主要圍繞著搜索引擎與索引理論分解出,各方面對(duì)SEO優(yōu)化和建站人員更加全方面理解蜘蛛抓取與索引理論相關(guān)知識(shí),更好為SEO優(yōu)化和網(wǎng)站程序人員怎么做一個(gè)蜘蛛抓取與索引喜歡我們網(wǎng)站.(今天我們先圍繞著主題解說(shuō)爬行抓取理論知識(shí))蜘蛛爬行抓?。?
1、先了解蜘蛛爬行抓取特征主要是以“快”“全”“準(zhǔn)”,下來(lái)會(huì)詳細(xì)介紹他原理,蜘蛛我相信大家都知道,可以比喻成現(xiàn)實(shí)生活中蜘蛛,蜘蛛爬行需要蜘蛛網(wǎng),蜘蛛網(wǎng)可以理解互聯(lián)網(wǎng),他是所有網(wǎng)站與網(wǎng)站形成非常大互聯(lián)網(wǎng),我們就知道想讓蜘蛛喜歡快速爬行抓取你網(wǎng)站盡可能在建站時(shí)注意模版/列表/文章頁(yè)簡(jiǎn)單和用戶(hù)體驗(yàn).
2、蜘蛛爬行原理特征:一種是深度優(yōu)先,另一種是寬度優(yōu)先:(1)為什么深度優(yōu)先:我們可以了解成像小孩剛學(xué)走路前肯定先會(huì)爬行,爬路徑越長(zhǎng)越累甚至爬一半就累了想休息就回去,那我們想到網(wǎng)站列表/文章路勁如很長(zhǎng)的話(huà)蜘蛛爬一半就走,走時(shí)候什么內(nèi)容都沒(méi)帶走。(上面就提到蜘蛛爬行一個(gè)特征“快”在這個(gè)高速發(fā)展時(shí)代什么都是快,效率,結(jié)果,當(dāng)在你網(wǎng)站爬半天都沒(méi)找到內(nèi)容蜘蛛覺(jué)得還不如爬其他網(wǎng)站)(2)另一種是寬度優(yōu)先:這個(gè)更容易理解同一樣層次頁(yè)面蜘蛛比較喜歡內(nèi)容好優(yōu)先爬行抓取。
3、快速引蜘蛛:做SEO優(yōu)化外鏈專(zhuān)員挑選一些我們資源當(dāng)中高權(quán)重/IP瀏覽用戶(hù)多/百度天天快照/不會(huì)刪除文章平臺(tái)發(fā)一些網(wǎng)址讓百度知道我這個(gè)網(wǎng)站已經(jīng)建好了,很多人投票投分?jǐn)?shù)給網(wǎng)站,(投票投分?jǐn)?shù)越多越好,說(shuō)明網(wǎng)站曝光度廣)告訴百度蜘蛛你的快來(lái)爬行抓取我網(wǎng)站內(nèi)容。
4、重復(fù)內(nèi)容檢測(cè):{建站時(shí)因注意事項(xiàng)(動(dòng)態(tài)地址靜態(tài)化)(對(duì)于優(yōu)化來(lái)講url直徑越短越重要)}(1):動(dòng)態(tài)地址靜態(tài)化我們可以簡(jiǎn)單理解成重復(fù)內(nèi)容檢測(cè)如一個(gè)動(dòng)態(tài)頁(yè)面入口鏈接(URL)如地址指向不同一個(gè)地方,蜘蛛會(huì)覺(jué)得你這個(gè)動(dòng)態(tài)頁(yè)面入口里面這么多重復(fù)鏈接(URL)地址不知道那個(gè)鏈接(URL)地址是你想要讓他抓取,蜘蛛會(huì)覺(jué)得抓取耗我這么長(zhǎng)時(shí)間,就不想抓取。
(2)網(wǎng)站路徑為:我們建站時(shí)候動(dòng)態(tài)地址可以設(shè)置成靜態(tài)化有利于蜘蛛抓取速度:網(wǎng)站的目錄結(jié)構(gòu)”可以通過(guò)偽靜態(tài)正則設(shè)置成簡(jiǎn)短的“邏輯路徑,不存在的“扁平結(jié)構(gòu)”例如:a/b/c/123.html 為物理路徑,通過(guò)設(shè)置偽靜態(tài)規(guī)則 則顯示出來(lái)的為/abc-123.html 假的邏輯路徑(靜態(tài)不一定是html形式的)“物理路徑”指真實(shí)存在的路徑“邏輯路徑”指用正則修改的理想路徑,一般為“扁平結(jié)構(gòu)”顯示,使用靜態(tài)化規(guī)則可以避免網(wǎng)頁(yè)的重復(fù)性(url的絕對(duì)性)累積權(quán)重,避免重復(fù)(做靜態(tài)話(huà)可獲最大分值)。
5、地址庫(kù):可以理解成地址與庫(kù)概念,蜘蛛“快”“全”“準(zhǔn)”爬行抓取互聯(lián)網(wǎng)所有URL ,然后URL地址蜘蛛抓取地址放到他想存儲(chǔ)庫(kù)里面去,這就叫地址庫(kù)。
以上就是百度蜘蛛爬行規(guī)律是什么的內(nèi)容了,更多精彩內(nèi)容請(qǐng)關(guān)注海淘科技,從客戶(hù)的市場(chǎng)目標(biāo)出發(fā)提供一整套專(zhuān)業(yè)、系統(tǒng)、保障的優(yōu)化服務(wù),為您提供營(yíng)銷(xiāo)推廣服務(wù)。