实现此目的的一种方法是让您的

Rate this post

但是，通配符对于将多种类型的页面组合在一起很有用。星号字符 ( * ) 与任何有效字符（包括 /、? 等）的 0 个或多个实例匹配。例如，Disallow: news*.html 块：新闻 .html news1234.html?id=1 但不阻止： newshtml 请注意缺少“”。

News.html 匹配区分大小写

/目录/news.html 在 blog 目录中修改以下模式，以 telegram 数字数据仅阻止以 .html 结尾的页面，而不是整个 blog 目录：用户代理：* 禁止：/blog/ 阻止一些参数。通配符的一个常见用例是阻止某些参数。

例如，处理维度导航的一种

方法是防止 4 个或更多面的组合。系统向 4 个以上方面使用 Vtiger 的潜在客户生成工具扩大您的客户群的所有组合添加像 ?crawl=no 这样的参数。例如，这意味着 3 个 Facet 的 URL 可能是 /facet1/facet2/facet3/ 但当添加第四个 Facet 时，它会变成 /facet1/facet2/facet3/facet4/?crawl=no 。

阻止这种情况的机器人

规则应该查找 *crawl=no （不是 *?crawl=no 因为 ?sort=asc&crawl=no 的查询字符串是有效的）。添加禁止：在下面的 robots.txt 中添加规则，以阻止任何具有 scrape=no scrape 的页面。

用户代理：* 禁止：/secret/ 匹配整个文件名。正如我们学生手机清单在文件夹提取中看到的那样（其中 /private/ 这样的模式将匹配该文件夹内文件的路径，例如 /private/privatefile.html ），默认情况下，我们在 robots.txt 中定义的模式很乐意仅匹配文件名的一部分，并允许没有显式通配符的任何内容。

有时我们希望能够强制

执行与整个文件名（带或不带通配符）匹配的模式。例如，以下 robots.txt 看起来会阻止对 jpg 文件进行爬网，但实际上也会阻止对名为解释-of-.jpg.html 的文件进行爬网，因为它也与该模式匹配。如果您希望在文件名末尾找到模式，我们必须以 $ 符号结束它，这是“行结束”符号。

例如，将

更改为 Disallow: /private.html$ 将停止匹配的模式，从而允许抓取该页面。修改下面的模式以排除原始 .jpg 文件（即以 .jpg 结尾的文件）。

News.html 匹配区分大小写

例如，处理维度导航的一种

阻止这种情况的机器人

有时我们希望能够强制

相关文章