为什么Google不遵守robots.txt协议?你应该告诉Google爬虫更新了robots.txt协议


原文地址:为什么Google不遵守robots.txt协议?你应该告诉Google爬虫更新了robots....

robots.txt是一个用于告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取的一个协议。如果遇到Google不遵守robots协议怎么办?本篇文章分享了Google为什么不遵守robots协议,如何解决Google不遵守robots协议。

robots.txt是一个用于告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取的一个协议。爬虫在抓取你的网站之前通常会先抓取robots.txt的内容(通常会遵守但不一定遵守)。这里以Google为例。

通常你会遇到这种情况,你发现Google抓取你的某个不想被抓取的页面,然后你更新了你的robots协议内容。但是发现对Google没有效果。这种情况可能有以下几个原因。

  1. Google缓存了你的robots协议,即使你更新了robots协议,搜索引擎仍然在用缓存的robots协议进行抓取
  2. Google没有遵守你的robots协议,一般情况下这种情况比较少,通常都会遵守。第一个情况比较多。

如何告诉Google你更新了robots协议

在你的robots.txt更新之后一定要告诉搜索引擎你更新了robots.txt,不然搜索引擎可能会按照之前缓存的robots.txt进行抓取。告诉Google robots协议更新可以通过Google Console的robots testing工具来通知Google。

如何告诉Google你更新了robots.txt协议

告诉Google更新了robots协议,你可以通过Google Testing Tool提交robots更新通知。

Google Testing工具地址:https://www.google.com/webmasters/tools/robots-testing-tool, 同时也可以访问本站的SEO工具导航找到Google robots测试工具访问,SEO工具网址导航收集了一些经常用到,好用的SEO工具。

打开Google Testing Toole之后,选择你的相应的网站(Please select a property)。

为什么Google不遵守robots.txt协议?你应该告诉Google爬虫更新了robots.txt协议

然后选择右边的submit按钮,弹出三个选项:

  1. 第一个是下载编辑器里的robots协议。
  2. 检查上传的到你网站根目录的robots协议
  3. 告诉Google去更新robots协议。(选择第三个选项)

为什么Google不遵守robots.txt协议?你应该告诉Google爬虫更新了robots.txt协议

提交成功后Google会告诉你:Success! Reload the Tester page in a minute to confirm the timestamp.让你刷新当前页面确认时间戳。这里可以看到不同时间Google抓取的robots内容。Google不遵守robots协议可能就是因为Google用的是旧的robots协议。

为什么Google不遵守robots.txt协议?你应该告诉Google爬虫更新了robots.txt协议

欢迎站长朋友加微互相学习交流,扫描下方的二维码即可。

评论

登录后评论

Top