但是,通配符对于将多种类型的页面组合在一起很有用。星号字符 ( * ) 与任何有效字符(包括 /、? 等)的 0 个或多个实例匹配。 例如,Disallow: news*.html 块: 新闻 .html news1234.html?id=1 但不阻止: newshtml 请注意缺少“”。
News.html 匹配区分大小写
/目录/news.html 在 blog 目录中修改以下模式,以 telegram 数字数据 仅阻止以 .html 结尾的页面,而不是整个 blog 目录: 用户代理:* 禁止:/blog/ 阻止一些参数。 通配符的一个常见用例是阻止某些参数。
例如,处理维度导航的一种
方法是防止 4 个或更多面的组合。系统向 4 个以上方面 使用 Vtiger 的潜在客户生成工具扩大您的客户群 的所有组合添加像 ?crawl=no 这样的参数。例如,这意味着 3 个 Facet 的 URL 可能是 /facet1/facet2/facet3/ 但当添加第四个 Facet 时,它会变成 /facet1/facet2/facet3/facet4/?crawl=no 。
阻止这种情况的机器人
规则应该查找 *crawl=no (不是 *?crawl=no 因为 ?sort=asc&crawl=no 的查询字符串是有效的)。 添加禁止:在下面的 robots.txt 中添加规则,以阻止任何具有 scrape=no scrape 的页面。
用户代理:* 禁止:/secret/ 匹配整个文件名。 正如我们 学生手机清单 在文件夹提取中看到的那样(其中 /private/ 这样的模式将匹配该文件夹内文件的路径,例如 /private/privatefile.html ),默认情况下,我们在 robots.txt 中定义的模式很乐意仅匹配文件名的一部分,并允许没有显式通配符的任何内容。
有时我们希望能够强制
执行与整个文件名(带或不带通配符)匹配的模式。例如,以下 robots.txt 看起来会阻止对 jpg 文件进行爬网,但实际上也会阻止对名为解释-of-.jpg.html 的文件进行爬网,因为它也与该模式匹配。 如果您希望在文件名末尾找到模式,我们必须以 $ 符号结束它,这是“行结束”符号。
例如,将
更改为 Disallow: /private.html$ 将停止匹配 的模式,从而允许抓取该页面。 修改下面的模式以排除原始 .jpg 文件(即以 .jpg 结尾的文件)。