Google停止robots.txt中noindex指令的支持

Google SEO 工具

Google官方正式宣布：GoogleBot（谷歌爬虫蜘蛛）将不再遵守robots.txt的noindex指令。自2019年9月1日起，GoogleBot（谷歌爬虫蜘蛛）将停止支持机器人独家协议中不支持和未发布的规则。这意味着谷歌将不再支持robots.txt文件中的noindex指令。

“为了维护健康的生态系统并为未来的潜在开源版本做准备，我们将于2019年9月1日停止处理不支持和未发布的规则（如noindex）的所有代码。对于那些依赖noindex的人robots.txt文件中的索引指令控制着爬行，还有许多替代选项“。

什么是 noindex？

简单理解：noindex 主要是早期Google采用的一种元标记策略，通知搜索引擎爬虫访问的页面不需要索引和包含，需要严格执行。

至于百度是否支持noindex，Batman记得，早在2014年底，百度官方网站管理员社区就表示暂时不支持这个seo指令。

noindex的常见形式：

noindex 的一般表达式如下：<metaname=”robots” content=”noindex”> ;

Google列出了以下替代方案：

（1）机器人元标记中的noindex：在HTTP响应头和HTML中都支持，noindex指令是在允许爬行时从索引中删除URL的最有效方法。
（2）404和410 HTTP状态代码：两个状态代码表示该页面不存在，一旦抓取并处理了这些URL，就会从Google索引中删除这些URL。
（3）搜索控制台删除网址工具：该工具是一种从Google搜索结果中临时删除网址的快捷方法。
（4）禁止在robots.txt中：搜索引擎只能索引他们知道的页面，因此阻止页面被抓取通常意味着其内容不会被编入索引。虽然搜索引擎也可以基于来自其他页面的链接索引URL，而不会看到内容本身，但我们的目标是在将来使这些页面不太可见。
（5）密码保护：除非使用标记来表示订阅或支付内容，否则将页面隐藏在登录后通常会将其从Google索引中删除。

Google不再支持 noindex 的原因：

robots.txt 中的 noindex 为非官方指令。
Google过去曾支持过这个robots.txt指令，但以后不再支持了。

Google多年来一直在寻求改变这一点，并且通过标准化协议，它现在可以继续前进。谷歌称其“分析了robots.txt规则的使用情况。”谷歌专注于研究不受支持的互联网草案实施，例如抓取延迟，nofollow和 NOINDEX。“由于Google从未记录过这些规则，因此它们与Googlebot的使用率非常低，”Google表示“这些错误会影响网站在Google搜索结果中的存在，因为我们认为网站管理员不会这样做。”

如果你的网站 robots.txt 文件中有 noindex 指令，需要在2019年9月1日之前进行更改，可以参考使用类似nofollow或crawl-delay命令替代。

优化推广

什么是 noindex？

相关文章

在线留言取消回复