您現(xiàn)在的位置：麥站網(wǎng) > 站長學院 > SEO資訊 >

云優(yōu)原創(chuàng)模板
多城市分站站群系統(tǒng): 立即查看

Pbootcms模板
免費可商用程序: 立即查看

robots禁止抓取規(guī)則為什么還被收錄

來源：本站原創(chuàng) 發(fā)布時間：2019-03-30 00:00:00熱度： ℃我要評論（0）

麥站模板建站平臺（10年經(jīng)驗），服務數(shù)萬家企業(yè)，固定透明報價。域名注冊、主機/服務器、網(wǎng)站源碼一站式服務。實體公司，專業(yè)團隊，值得選擇！超過1000套模板已登記版權，合規(guī)合法建站，規(guī)避版權風險！【點擊獲取方案】

有時候不希望搜索引擎抓取某些內容可以寫robots.txt文件放到根目錄，按理蜘蛛會首先讀取這個文件，按照robots協(xié)議抓取相應的內容。但是許多站長們發(fā)現(xiàn)，蜘蛛并不太遵守這個協(xié)議。

為驗證這個問題，做了測試后發(fā)現(xiàn)，如果蜘蛛已經(jīng)抓取并有索引、快照了，這個時候再寫robots就不遵守這個協(xié)議了，一般在robots中禁止抓取文件夾如下，

Disallow:/about/

還不放心，在頁面里增加<meta>聲明

<meta name="robots" content="noindex,follow" />

這個聲明的意思是告訴蜘蛛不建立索引，可以沿著路徑繼續(xù)抓取內容。以為這就能讓已經(jīng)收錄的快照刪除了，有網(wǎng)友說這需要等待，時間都說不好。

百度有個規(guī)則是判斷頁面質量，如果多個頁面重復內容過多，會被降權，甚至移出索引庫。等待很長世間才會被移出索引庫，一般調整過的網(wǎng)站的收錄量會減少，但不是大幅度減少，是因為有些垃圾頁面在算法更新后被移出索引庫而已，這對于正規(guī)SEO做法的站長來說是好事，垃圾頁面會影響到網(wǎng)站的排名。

robots和nofollow都能控制蜘蛛抓取范圍，而兩個的用法不盡相同。

robots協(xié)議

告訴蜘蛛哪些內容可抓取，哪些不可抓取。原則是：參與排名的就讓蜘蛛抓，不參與的或涉及到信息安全的不抓取。

nofollow標簽

告訴蜘蛛該頁面內，某鏈接不可信任，不傳遞權重。一般在頁面鏈接較多的情況下（頁面會給該頁面下所有鏈接權重），為了集中頁面權重，一些無關緊要的鏈接采用nofollow加以控制。

簡單說，nofollow主要是為了集中某個頁面的權重，而robots是控制整個網(wǎng)站的蜘蛛抓取范圍。那么問題來了，為什么很多時候蜘蛛不遵守我們的robots協(xié)議呢？（一些垃圾蜘蛛是完全不遵守robots協(xié)議的）我們說的蜘蛛主要指百度、谷歌蜘蛛。

①書寫錯誤

robots.txt的書寫格式是一行一行的寫，不能連著寫，如

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

每個記錄都需要另起一行，每個記錄里不允許空行，空行用來分割不同的記錄。正確的如

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

很多時候搜索引擎抓取了你 robots.txt 不允許抓取的內容不是因為機器人不遵守，而是從抓取到索引到展現(xiàn)這個過程需要一段時間，當搜索引擎已經(jīng)抓取了，你才更新，那么之前抓取的是不會那么快刪掉的，刪除周期并不規(guī)律，一般是算法更新后生效的情況多些。

下面說下幾個新手可能會需要的信息。

1、robots.txt 怎么寫？

各大搜索引擎的站長平臺（英文叫 webmasters ）都有詳細說明，也有生成工具。

2、怎樣確定 robots.txt 有效？

站長平臺都有抓取 robots.txt 的工具，也會有“抓取工具”來確認某個頁面是不是可以正確抓取。

3、怎樣通知搜索引擎 robots.txt 已更新？

和上面的一樣，通過站長平臺的抓取工具重新抓取（有的是“更新”）即可。

4、讓搜索引擎抓取了不應該抓取的內容怎么辦？

這個常用方法有幾種：

* 在站長平臺的刪除鏈接工具中輸入鏈接并確認刪除
* 修改代碼使搜索引擎訪問時返回錯誤代碼（503、404等），然后在站長平臺重新抓取
* 修改 robots.txt （這個只建議在上面兩個操作過之后補充）

5、整站禁止抓取，如何操作更有效？

有的搜索引擎索引是不遵守 robots.txt 的，只有在展現(xiàn)的時候遵守，也就是說，就算你 robots.txt 寫明了禁止抓取，你會發(fā)現(xiàn)還是有機器人來爬。

所以如果是大目錄或者是整站禁止抓取，建議在服務器軟件（如 nginx）的代碼段中直接判斷搜索引擎 UA 并返回錯誤代碼。這樣一方面可以減輕服務器壓力，一方面可以真正禁止抓取。

轉載請注明來源網(wǎng)址：http://www.jygsgssxh.com/seo/1522.html

上一篇：網(wǎng)站內容相似度高的處理辦法

下一篇：為什么網(wǎng)站收錄很多無權重該如何提升

發(fā)表評論

評論列表（條）

雷火电竞-中国电竞赛事及体育赛事平台

商業(yè)模板（特惠）

您現(xiàn)在的位置：麥站網(wǎng) > 站長學院 > SEO資訊 >

熱門標簽

robots禁止抓取規(guī)則為什么還被收錄

robots協(xié)議

nofollow標簽

相關閱讀

發(fā)表評論

評論列表（條）

雷火电竞-中国电竞赛事及体育赛事平台

商業(yè)模板（特惠）

您現(xiàn)在的位置： 麥站網(wǎng) > 站長學院 > SEO資訊 >

熱門標簽

robots禁止抓取規(guī)則為什么還被收錄

robots協(xié)議

nofollow標簽

相關閱讀

發(fā)表評論

評論列表（條）

您現(xiàn)在的位置：麥站網(wǎng) > 站長學院 > SEO資訊 >