robots.txt的作用是什么?在網(wǎng)站內(nèi)部優(yōu)化中有很多細(xì)節(jié)優(yōu)化要注意,這些都不能忽視的,今天同樣介紹一種seo入門教程當(dāng)中的基礎(chǔ)知識:如何設(shè)置robots.txt!要想把網(wǎng)站做好,做一個比較正規(guī)有權(quán)威的網(wǎng)站,robots文件是必不可少。
簡單的說robots文件是搜索引擎蜘蛛爬取網(wǎng)頁時要遵守的協(xié)議文件,這個文件是以記事本 txt 的形式保存在網(wǎng)站的根目錄下。
與此同時我們還有了解一個個概念:robot:即搜索引擎蜘蛛。它是一種搜索引擎抓取網(wǎng)頁內(nèi)容的程序工具。
robots.txt這個文件是用來告訴搜索機器人不要爬行我們的部分網(wǎng)頁,比如:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。這些頁面或文件被搜索引擎收錄了,用戶也看不了,對用戶沒幫助,既浪費了服務(wù)器資源,又增加了服務(wù)器的壓力,因此我們可以用robots.txt告訴機器人集中注意力去收錄我們的文章頁面。增強用戶體驗,減少服務(wù)器壓力。
1. 幾乎所有的搜索引擎 Spider 都遵循 robots.txt 給出的爬行規(guī)則,協(xié)議規(guī)定搜索引擎 Spider 進(jìn)入某個網(wǎng)站的入口即是該網(wǎng)站的 robots.txt,當(dāng)然,前提是該網(wǎng)站存在此文件。對于沒有配置robots.txt 的網(wǎng)站,Spider 將會被重定向至404 錯誤頁面,相關(guān)研究表明,如果網(wǎng)站采用了自定義的 404 錯誤頁面,那么 Spider 將會把其視作 robots.txt——雖然其并非一個純粹的文本文件——這將給 Spider 索引網(wǎng)站帶來很大的困擾,影響搜索引擎對網(wǎng)站頁面的收錄。
2. robots.txt 可以制止不必要的搜索引擎占用服務(wù)器的寶貴帶寬,如 email retrievers,這類搜索引擎對大多數(shù)網(wǎng)站是沒有意義的;再如 image strippers,對于大多數(shù)非圖形類網(wǎng)站來說其也沒有太大意義,但卻耗用大量帶寬。
3. robots.txt 可以制止搜索引擎對非公開頁面的爬行與索引,如網(wǎng)站的后臺程序、管理程序,事實上,對于某些在運行中產(chǎn)生臨時頁面的網(wǎng)站來說,如果未配置 robots.txt,搜索引擎甚至?xí)饕切┡R時文件。
4. 對于內(nèi)容豐富、存在很多頁面的網(wǎng)站來說,配置 robots.txt 的意義更為重大,因為很多時候其會遭遇到搜索引擎 Spider 給予網(wǎng)站的巨大壓力:洪水般的 Spider 訪問,如果不加控制,甚至?xí)绊懢W(wǎng)站的正常訪問。
5. 同樣地,如果網(wǎng)站內(nèi)存在重復(fù)內(nèi)容,使用 robots.txt 限制部分頁面不被搜索引擎索引和收錄,可以避免網(wǎng)站受到搜索引擎關(guān)于 duplicate content 的懲罰,保證網(wǎng)站的排名不受影響。
以上就是robots.txt的作用,更多請關(guān)注海淘科技。