SEO基礎(chǔ)之robots協(xié)議詳解

12-12月-2011

本帖要講的內(nèi)容也是SEO一個基本的東西–robot.txt協(xié)議

　　robots是什么意思

　　robots在英語之中的意思是機器人，而對我們SEOer所接觸到的所講的robots是一個txt文本形式的協(xié)議，形象的來說就是我們網(wǎng)站與搜索引擎溝通的一種方式，通過robots.txt協(xié)議我們可以告訴搜索引擎哪些頁面是可以抓取的，哪些頁面是不允許抓取的。所以搜索引擎來到一個網(wǎng)站的時候首先會訪問的第一個文件就是存放在網(wǎng)站根目錄之下的robots.txt。在了解了網(wǎng)站的設(shè)置之后就會按照要求來進行網(wǎng)站頁面的抓取。

　　robots.txt的使用方法

　　robots.txt的使用方法非常的簡單，我們只需要建立一個文本文檔以robots.txt命名在我們寫好了規(guī)則之后直接將這個文本文檔上傳至網(wǎng)站的根目錄就可以了。具體的寫法我這里就不多說了，在百度搜索幫助中心-禁止搜索引擎收錄的方法之中有非常詳細的說明和例子。認真的看一看應(yīng)該就能夠自己寫出符合自己網(wǎng)站的規(guī)則出來。同時在我們寫好并上傳了robots.txt之后，我們可以通過谷歌管理員工具后臺的工具像谷歌一樣抓取來測試我們所寫的規(guī)則是否正確。

　　robots.txt與nofollow標簽的不同之處

　　常常有人對于這兩個東西弄混淆，實際上robots.txt和nofollow不同的地方還是很多的，robots.txt是用來限制網(wǎng)站某個頁面不被收錄的，告訴搜索引擎我不希望這個頁面被收錄或者是這種形式的頁面不被收錄，而nofollow標簽則是告訴搜索引擎在這個頁面之上不對這個頁面上的鏈接傳遞權(quán)重或者是不對某一個特定的鏈接傳遞權(quán)重，并不意味著某一個鏈接加了nofollow標簽它就不會被收錄了。

　　常見的robots蜘蛛

　　baiduspider 百度的綜合索引蜘蛛

　　Googlebot 谷歌蜘蛛

　　Googlebot-Image專門用來抓取圖片的蜘蛛

　　Mediapartners-Google 廣告聯(lián)盟代碼的蜘蛛

　　YodaoBot 網(wǎng)易蜘蛛

　　Sosospider 騰訊SOSO綜合蜘蛛

　　sogou spider 搜狗綜合蜘蛛

　　Yahoo Slurp 雅虎蜘蛛

　　Yahoo! Slup China 雅虎中國蜘蛛

　　Yahoo!-AdCrawler 雅虎廣告蜘蛛

　　通過robots.txt我們可以對于特定的蜘蛛進行一些屏蔽，比如說我們可以讓某一個頁面允許被百度抓取而不讓谷歌抓取，我們就需要在robots.txt之中通過User-agent:(某個蜘蛛)這樣的形式來控制某一個蜘蛛特定的權(quán)限。

　　robots.txt的好處

　　常常有很多的網(wǎng)站就是因為沒有對robots.txt進行合理設(shè)置再加上自己的網(wǎng)站程序不夠完善導致了很多垃圾頁面或者是重復(fù)頁面的收錄，這樣就會讓網(wǎng)站的權(quán)重分散，大量的重復(fù)頁面也會讓網(wǎng)站收錄變得不理想，出現(xiàn)需要被收錄的沒有被收錄，不希望收錄的倒是被收錄了的情況，就拿wordpress來說*?replytocom=這個回復(fù)鏈接是常常被收錄的，如果不進行屏蔽就會出線非常多的垃圾頁面，所以一般情況下都會在robots.txt之中寫上Disallow: /*?replytocom=將這種形式的鏈接全都屏蔽掉從而減少垃圾頁面的收錄。

　　善用robots.txt讓網(wǎng)站更有價值的頁面被收錄，減少垃圾頁面和不必要的頁面收錄也是非常重要的一點。

　　如感興趣，可繼續(xù)關(guān)注會搜SEO基礎(chǔ)系列知識。

上篇新聞：SEO基礎(chǔ)之目標關(guān)鍵詞與長尾關(guān)鍵詞

下篇新聞：中移動力推原創(chuàng)手機視頻：作者按比例分成

亚洲国产一区二区在线,成人速播影院在线播放免费,91天堂嫩模在线播放,国产高清在线精品免费

SEO基礎(chǔ)之robots協(xié)議詳解