ad_728x90

2013年8月2日 星期五

SEO中學會robots使用


學習SEO中學會robots使用是非常有必要的.

第一,robots.txt應該要放在網站的根目錄上而且文件名必須全部小寫,機器人訪問網站首先會檢測http://域名/robots.txt,來確定訪問權限的那範圍.由於機器人第一步訪問的文件是robots所以不管你是否需要屏蔽機器人抓去,都要添加一個robots.txt.

第二,一般robots要屏蔽的文件有:後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等.禁止抓取這些文件可以大大減少機器人的工作壓力,​​提高機器人對網站的友好度.所以呢.蜘蛛要靠養的,你對他好.他自己也會對你好

第三,關於robots書寫的內容
robots裡的基本函數:User-agent和Disallow。文件裡面至少要有一個Disallow函數,如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫Disallow: /(注:只是差一個斜桿)。



詳細說明:
如果你想要所有搜索引擎抓取你網站上的所有內容就直接在robots文件裡寫
User-agent: *
Disallow:
或者直接空建一個robots.txt的空文件
說明:User-agent:後面為搜索引擎的機器人程序名稱,*則表示所有的搜索引擎機器人程序;Disallow:後面為不允許訪問的文件目錄。
以下是常見的搜索引擎spider程序
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp

如果要禁止所有搜索引擎抓取網站所有內容則在robots裡寫
User-agent: *
Disallow: /

如果要禁止所有搜索引擎抓取網站內的某些部分內容則在robots寫上
User-agent: *
Disallow: /123/
Disallow: /abc/

如果是單禁止某個搜索引擎的訪問則在robots寫
User-agent: googlebot
Disallow: /
同理如果你要只允許某個搜索引擎訪問禁止其他搜索引擎的話則在robots裡寫
User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

一般網站所要禁止抓取的內容如下: [僅供參考]
Disallow: /admin/ 後台管理文件
Disallow: /require/ 程序文件   
Disallow: /attachment/附件   
Disallow: /images/ 圖片   
Disallow: /data/ 數據庫文件   
Disallow: /template/ 模板文件   
Disallow: /css/ 樣式表文件   
Disallow: /lang/ 編碼文件   
Disallow: /script/ 腳本文件


其他說明
Disallow:.jpg$
屏蔽網站帶JPG的圖片文件,也可以防止搜索引擎抓起後被盜鏈

屏蔽admin目錄防止出現不必要的死鏈,並且可以有效的保護網站安全,不少低級黑客就是通過搜索默認後台登陸,以達到入侵網站的目標

在robots.txt裡還可以添加上sitemap網站地圖提供給搜索引擎直接訪問的內容讓搜索引擎更快到找到目標提高收錄
Sitemap: http://域名/sitemap.xml

在英語中robot是機器人的意思,robots就很容易了解到他的作用.所以學會robots對seo的幫助還是非常大的.

COMMENTS HAVE BEEN DISABLED FOR THIS POST [文章的評論已被禁用]

Ratings and Recommendations by outbrain