我选择 是因人们从中学到最多的内容之一。 另外,尽管有多年的经验,我在编写这个模块时发现了一些我不知道的事情(特别是关于不同规则的优先级以及通配符与显式规则的交互)。我希望这对你们中的许多人(无论是初学者还是专家)都有用。
互动指南
是在域根目录中找到的纯文本文件(例如 )。它是一个广泛认可的标准,允许网站管理员控制其网站的所有类型的自动使用,而不仅仅是搜索引擎。 除了阅读协议之外,robots.txt 是 SEO 中更容易访问的领域之一,因为您可以访问任何网站的 robots.txt。
完成本模块后,您将发
现确保了解一些主要网站(例如 Google 和 Amazon)的 robots.txt 文件的价值。 对于以下每个部分,编辑文本区域中的文本,并在获得正确答案时观察它们变成绿色。 解雇理由 robots.txt 最常见的用途是阻止机器人访问某些页面。
最简单的版本将此规
则应用于包含 user-agent: * 行的所有机器人。以下行 电话号码数据 包含协同工作的特定排除项,因此下面的代码将阻止机器人访问 /secret.html。 添加另一条规则以阻止访问除 /secret.html 之外的 /secret2.html。
用户代理:* 禁止:/secret.html 排除目录。 如果您以 通过电子邮件关注并获取最新博客更新尾部斜杠(“/”)结束排除指令,例如 Disallow: /private/ ,则目录内的所有内容都会被阻止。 修改下面的排除规则以阻止名为secret的文件夹而不是页面secret.html。
用户代理: 不允许
secret.html 允许特定路径。 除了禁止特定路径之外,robots.tx 学生手机清单 t 语法还允许允许特定路径。请注意,允许机器人访问是默认状态,因此如果文件中没有规则,则允许所有路径。 Allow: 指令的主要用途是覆盖更常见的 Disallow: 指令。
优先级规则规定“基于
条目长度的最具体的规则将覆盖不太具体(较短)的规则。带有通配符的规则的优先顺序未指定。” 我们将通过编辑下面的 /secret/ 文件夹的输出来演示这一点:使用允许的规则允许 /secret/not-secret.html。由于这条规则很长,所以会优先考虑。