用户代理:* 禁止:/secret/ 仅限于特定用同样适用于所有机器人。这是由用户代理定义的: * 启动我们的命令。但是,通过更改 * ,我们可以设计仅适用于具有特定名称的机器人的规则。 在下面的示例中,将 * 替换为 Googlebot 以创建仅适用于 Google 机器人的规则。
用户代理: 禁止
添加多个块。 可以有针对不同机器人组的多个 WhatsApp 号码 命令块。下面的 robots.txt 示例将允许 googlebot 访问除 /secret/ 目录中的文件之外的所有文件,并将阻止整个网站的所有其他机器人。请注意,由于显然有一组针对 googlebot 的指令,因此 googlebot 将完全忽略针对所有机器人的指令。
这意味着您无法根据一
般排除创建自己的排除。如果您想定位命名机器人,则每个块必须定义自己的所有规则。 添加另一个针对所有机器人的指令块(用户代理:*),以阻止整个站点(禁止:/)。这将创 使用高级主题启动 Vtiger Blog | 建一个 robots.txt 文件,该文件将阻止整个网站的所有机器人(Googlebot 除外),Googlebot 可以抓取除 /secret/ 文件夹之外的任何页面。
用户代理:
禁止:/secret/ 使用更具体的用户代理。 有时,您希望以不同于主要 Google 机器人的方式控制特定抓取工具(例如 Google 图片抓取工具)的行为。为了在 robots.txt 中启用此功能,这些爬网程序将选择侦听适用于它们的最具体的用户代理字符串。
因此例如如果有一
组用于 googlebot 的指令和一个用于 googlebot-images 的指令 学生手机清单 ,则图像爬虫将遵循后一组指令。如果没有针对 googlebot-images (或任何其他专门的 googlebots )的特定指令集,它们将遵守常规的 googlebot 指令。
请注意爬虫只会遵守一组指
令 – 不存在将指令作为一个整体应用于所有组的概念。 给定以下
将遵循 googlebot 的指令(换句话说,不会抓取 /secret/ 文件夹。修改它,以便 googlebot(和 googlebot-news 等)的指令保持不变,但 googlebot-images 有一组特定的指令,这意味着它不会抓取 /secret/ 文件夹: 用户代理:googlebot 禁止:/secret/ 基本通配符 尾随通配符(用 * 指定)将被忽略,因此 Dis
private 相同。