跳到主要內容

SEO中學會robots使用


學習SEO中學會robots使用是非常有必要的.

第一,robots.txt應該要放在網站的根目錄上而且文件名必須全部小寫,機器人訪問網站首先會檢測http://域名/robots.txt,來確定訪問權限的那範圍.由於機器人第一步訪問的文件是robots所以不管你是否需要屏蔽機器人抓去,都要添加一個robots.txt.

第二,一般robots要屏蔽的文件有:後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等.禁止抓取這些文件可以大大減少機器人的工作壓力,​​提高機器人對網站的友好度.所以呢.蜘蛛要靠養的,你對他好.他自己也會對你好

第三,關於robots書寫的內容
robots裡的基本函數:User-agent和Disallow。文件裡面至少要有一個Disallow函數,如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫Disallow: /(注:只是差一個斜桿)。



詳細說明:
如果你想要所有搜索引擎抓取你網站上的所有內容就直接在robots文件裡寫
User-agent: *
Disallow:
或者直接空建一個robots.txt的空文件
說明:User-agent:後面為搜索引擎的機器人程序名稱,*則表示所有的搜索引擎機器人程序;Disallow:後面為不允許訪問的文件目錄。
以下是常見的搜索引擎spider程序
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp

如果要禁止所有搜索引擎抓取網站所有內容則在robots裡寫
User-agent: *
Disallow: /

如果要禁止所有搜索引擎抓取網站內的某些部分內容則在robots寫上
User-agent: *
Disallow: /123/
Disallow: /abc/

如果是單禁止某個搜索引擎的訪問則在robots寫
User-agent: googlebot
Disallow: /
同理如果你要只允許某個搜索引擎訪問禁止其他搜索引擎的話則在robots裡寫
User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

一般網站所要禁止抓取的內容如下: [僅供參考]
Disallow: /admin/ 後台管理文件
Disallow: /require/ 程序文件   
Disallow: /attachment/附件   
Disallow: /images/ 圖片   
Disallow: /data/ 數據庫文件   
Disallow: /template/ 模板文件   
Disallow: /css/ 樣式表文件   
Disallow: /lang/ 編碼文件   
Disallow: /script/ 腳本文件


其他說明
Disallow:.jpg$
屏蔽網站帶JPG的圖片文件,也可以防止搜索引擎抓起後被盜鏈

屏蔽admin目錄防止出現不必要的死鏈,並且可以有效的保護網站安全,不少低級黑客就是通過搜索默認後台登陸,以達到入侵網站的目標

在robots.txt裡還可以添加上sitemap網站地圖提供給搜索引擎直接訪問的內容讓搜索引擎更快到找到目標提高收錄
Sitemap: http://域名/sitemap.xml

在英語中robot是機器人的意思,robots就很容易了解到他的作用.所以學會robots對seo的幫助還是非常大的.

這個網誌中的熱門文章

正確設置404頁面及其他.505,500....

正確設置404頁面 404頁面的設置是否正確直接關係到網站粘性,而現在很多網站的錯誤頁面返回碼都是200和302,只要蜘蛛爬行錯誤頁面不是404,那麼你的404頁 面設置就是錯誤的了,這裡跟大家介紹如何正確設置404頁面。 怎麼正確設置404頁面?很多人看到這個話題可能覺得下文不屑一顧,其實你是否知道自己的404頁面有沒有設置正確呢?很多開源的cms系統和博客 系統都會帶有404頁面,你是不是覺得這樣已經ok了?不用設置了?這些想法是錯誤的,我們做優化的時候,應該測試404頁面時候生效,設置是否正 確等。下面我們詳細說明怎麼設置404頁面。 這先說一下怎麼樣的404頁面才是有效的404頁面。大家應該都知道搜索引擎是通過http狀態碼來識別網頁狀態的,那麼當蜘蛛檢索到一個錯誤鏈 接時,就需要返回404狀態碼來告訴搜索引擎,這個頁面是錯誤頁面,以後不用索取了。而如果返回200,則告訴搜索引擎這個頁面是正常頁面。 所以我們要查看網站錯誤頁面的返回碼是200還是404,而現在很多網站的404頁面返回碼是200而不是404.    那怎麼正確設置404頁面?

Mac OS X Server 架設兩個網站、兩個郵件伺服器

from:http://www.bnw.com.tw/conference/viewtopic.php?t=208 我的需求要更簡單。  朋友的工作室就兩三人而已,另外一個工作室也是兩三人。  希望有屬於自己的網站及網域名稱郵件  www.123.com   abc@123.com  

Mac mini server(2012 年末和 2011 年中):如何將 OS X Server 安裝到軟體 RAID

重要事項 這些步驟會清除 Mac mini Server 中兩個磁碟機上的所有資料。雖然您可以重新安裝 OS X Server,但是請務必確認這些磁碟機上的任何其他資料都已完成備份,然後再繼續。 您無法在 RAID 卷宗上建立恢復分割區。如果沒有恢復分割區, 將無法支援 OS X 的某些功能 ,因此您應該考慮使用 恢復磁碟輔助程式 建立外接恢復磁碟,然後才建立 RAID 卷宗。 本文所提供的步驟需要使用透過 WiFi 或乙太網路的寬頻 Internet 連線。您的網路連線必須符合 這篇連結文章 的「重新安裝 OS X 的需求」一節中,針對 Internet 回復功能所述的需求。 安裝步驟 按住 Command、Option 和 R 鍵的同時啟動 Mac mini Server,以便啟動進入 Internet 回復模式。這可能要花數分鐘的時間。看到旋轉地球和“正在從網路啟動回復程序”訊息時,放開這些按鍵。