跳到主要內容

SEO中學會robots使用


學習SEO中學會robots使用是非常有必要的.

第一,robots.txt應該要放在網站的根目錄上而且文件名必須全部小寫,機器人訪問網站首先會檢測http://域名/robots.txt,來確定訪問權限的那範圍.由於機器人第一步訪問的文件是robots所以不管你是否需要屏蔽機器人抓去,都要添加一個robots.txt.

第二,一般robots要屏蔽的文件有:後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等.禁止抓取這些文件可以大大減少機器人的工作壓力,​​提高機器人對網站的友好度.所以呢.蜘蛛要靠養的,你對他好.他自己也會對你好

第三,關於robots書寫的內容
robots裡的基本函數:User-agent和Disallow。文件裡面至少要有一個Disallow函數,如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫Disallow: /(注:只是差一個斜桿)。



詳細說明:
如果你想要所有搜索引擎抓取你網站上的所有內容就直接在robots文件裡寫
User-agent: *
Disallow:
或者直接空建一個robots.txt的空文件
說明:User-agent:後面為搜索引擎的機器人程序名稱,*則表示所有的搜索引擎機器人程序;Disallow:後面為不允許訪問的文件目錄。
以下是常見的搜索引擎spider程序
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp

如果要禁止所有搜索引擎抓取網站所有內容則在robots裡寫
User-agent: *
Disallow: /

如果要禁止所有搜索引擎抓取網站內的某些部分內容則在robots寫上
User-agent: *
Disallow: /123/
Disallow: /abc/

如果是單禁止某個搜索引擎的訪問則在robots寫
User-agent: googlebot
Disallow: /
同理如果你要只允許某個搜索引擎訪問禁止其他搜索引擎的話則在robots裡寫
User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

一般網站所要禁止抓取的內容如下: [僅供參考]
Disallow: /admin/ 後台管理文件
Disallow: /require/ 程序文件   
Disallow: /attachment/附件   
Disallow: /images/ 圖片   
Disallow: /data/ 數據庫文件   
Disallow: /template/ 模板文件   
Disallow: /css/ 樣式表文件   
Disallow: /lang/ 編碼文件   
Disallow: /script/ 腳本文件


其他說明
Disallow:.jpg$
屏蔽網站帶JPG的圖片文件,也可以防止搜索引擎抓起後被盜鏈

屏蔽admin目錄防止出現不必要的死鏈,並且可以有效的保護網站安全,不少低級黑客就是通過搜索默認後台登陸,以達到入侵網站的目標

在robots.txt裡還可以添加上sitemap網站地圖提供給搜索引擎直接訪問的內容讓搜索引擎更快到找到目標提高收錄
Sitemap: http://域名/sitemap.xml

在英語中robot是機器人的意思,robots就很容易了解到他的作用.所以學會robots對seo的幫助還是非常大的.

這個網誌中的熱門文章

正確設置404頁面及其他.505,500....

正確設置404頁面 404頁面的設置是否正確直接關係到網站粘性,而現在很多網站的錯誤頁面返回碼都是200和302,只要蜘蛛爬行錯誤頁面不是404,那麼你的404頁 面設置就是錯誤的了,這裡跟大家介紹如何正確設置404頁面。 怎麼正確設置404頁面?很多人看到這個話題可能覺得下文不屑一顧,其實你是否知道自己的404頁面有沒有設置正確呢?很多開源的cms系統和博客 系統都會帶有404頁面,你是不是覺得這樣已經ok了?不用設置了?這些想法是錯誤的,我們做優化的時候,應該測試404頁面時候生效,設置是否正 確等。下面我們詳細說明怎麼設置404頁面。 這先說一下怎麼樣的404頁面才是有效的404頁面。大家應該都知道搜索引擎是通過http狀態碼來識別網頁狀態的,那麼當蜘蛛檢索到一個錯誤鏈 接時,就需要返回404狀態碼來告訴搜索引擎,這個頁面是錯誤頁面,以後不用索取了。而如果返回200,則告訴搜索引擎這個頁面是正常頁面。 所以我們要查看網站錯誤頁面的返回碼是200還是404,而現在很多網站的404頁面返回碼是200而不是404.    那怎麼正確設置404頁面?

Mac OS X Server 架設兩個網站、兩個郵件伺服器

from:http://www.bnw.com.tw/conference/viewtopic.php?t=208 我的需求要更簡單。  朋友的工作室就兩三人而已,另外一個工作室也是兩三人。  希望有屬於自己的網站及網域名稱郵件  www.123.com   abc@123.com  

無法在Mac Os X 中移動、解除鎖定、修改或複製項目

您可能無法移動、複製或拖移項目。您可能無法解除鎖定一些項目。 秘訣 :如需刪除檔案與清空垃圾桶的說明,請另外參閲 無法清空垃圾桶或將檔案移至垃圾桶 。 本文件的主題屬於兩大常見問題之一。 秘訣 :有時無法從某個位置移動項目或將項目移至某個位置是正常的。Mac OS X 會限制某些檔案夾 (包括應用程式、程式庫以及系統) 的存取,以保持作業系統和使用者資料的完整性。 問題 1 如果您在 Mac OS X 10.2 或以上版本中試著移動檔案,然後出現訊息:「因為項目 (項目名稱) 已鎖定,所以無法完成此作業。」 如果您試著修改項目的權限,可能會出現訊息:「無法完成此作業,發生無法預期的錯誤 (錯誤碼 1)。」 如果您將一個卷宗拷貝成另一個卷宗,例如將卷宗的圖像拖移至另一個圖像上,或拖移至其所有的視窗之一,就可能會發生此問題。 問題 2 出現包含下列訊息之一的提示框: