禁止在 robots.txt 中使用动态 URL

2024-03-19

我们的网址是:

http://example.com/kitchen-knife/collection/maitre-universal-cutting-boards-rana-parsley-chopper-cheese-slicer-vegetables-knife-sharpening-stone-ham-stand-ham-stand-riviera-niza-knives-block-benin.html

我想禁止在之后抓取网址collection,但之前collection有些类别是动态出现的。

之后如何禁止 robots.txt 中的网址/collection?


这在原始 robots.txt 规范中是不可能的。

但是一些(!)解析器扩展了规范并定义了通配符(通常是*).

对于这些解析器,您可以使用:

Disallow: /*/collection

理解的解析器*因为通配符将停止抓取路径开头为的任何 URLanything(这可能是nothing), 其次是/collection/, 其次是anything, e.g.,

http://example.com/foo/collection/
http://example.com/foo/collection/bar
http://example.com/collection/

解析器不理解*作为通配符(即,它们遵循原始规范)将停止抓取路径以/*/collection/, e.g.

http://example.com/*/collection/
http://example.com/*/collection/bar
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

禁止在 robots.txt 中使用动态 URL 的相关文章

  • 通过 PHP 呈现纯文本

    出于某种原因 我想通过 PHP 脚本提供 robots txt 我已经设置了 apache 以便 robots txt 文件请求 实际上是所有文件请求 到达单个 PHP 脚本 我用来渲染 robots txt 的代码是 echo User
  • robots.txt 的正则表达式

    我正在尝试设置 robots txt 但我不确定正则表达式 我有四个不同的页面 全部以三种不同的语言提供 我想我可以使用正则表达式 而不是列出每个页面乘以 3 nav aspx page aspx changelang 可能附加一个查询字符
  • 如何在 ASP.NET MVC 中添加动态 robots.txt 的路由?

    我有一个不是静态的而是动态生成的 robots txt 我的问题是创建从 root robots txt 到我的控制器操作的路由 This works routes MapRoute name Robots url robots defau
  • 删除 robots.txt 后是否会产生后果?

    我发布了一个网站 由于不依赖于我的误解 我不得不在索引之前阻止所有页面 其中一些页面已经链接到社交网络上 因此为了避免不良的用户体验 我决定将以下代码插入到 robots txt 中 User agent Disallow 我收到了关于网站
  • 禁止目录内容,但允许 robots.txt 中的目录页面

    这是否适用于禁止目录下的页面 但仍允许该目录 url 上的页面 Allow special offers Disallow special offers 允许 www mysite com special offers 但阻止 www my
  • 阻止滥用机器人爬行?

    这是一个好主意吗 http browsers garykeith com stream asp RobotsTXT 滥用爬行是什么意思 这对我的网站有什么坏处 并不真地 无论如何 大多数 坏机器人 都会忽略 robots txt 文件 滥用
  • robots.txt - 这有效吗?

    我刚刚遇到了一个 robots txt 如下所示 User agent Disallow foobar User agent badbot Disallow 仅禁止所有文件夹后 具体是否badbot规则是否适用 注意 此问题仅用于理解上述规
  • Robots.txt,如何只允许访问域根目录,而不允许更深层次的访问? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我想允许爬虫访问我的域的根目录 即index html 文件 但没有更深入的目录 即没有子目录 我不想在 robots txt 文件中单独列出和拒绝每
  • robots.txt URL 格式

    根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式 然而 我注意到堆栈溢出机器人 txt https stackov
  • 如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt?

    我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re
  • robots.txt 只允许root,禁止其他一切?

    我似乎无法让它发挥作用 但它似乎非常基本 我想要抓取域根 http www example com 但没有其他可爬行的内容 并且所有子目录都是动态的 http www example com I tried User agent Allow
  • 我可以在 robots.txt 中使用“Host”指令吗?

    Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c
  • 任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL

    简短的问题 有没有人有任何 C 代码来解析 robots txt 然后根据它评估 URL 看看它们是否会被排除 长问题 我一直在为尚未发布到谷歌的新网站创建站点地图 站点地图有两种模式 用户模式 如传统站点地图 和 管理 模式 管理模式将显
  • Django 应用程序中 robots.txt 的推荐指令是什么?

    目前我的 Django 项目具有以下结构 app1 app2 django project manage py media static secret stuff and my robots txt看起来像这样 User agent All
  • Robots.txt 类别 URL 限制

    我无法找到有关我的案件的信息 我想限制以下类型的 URL 被编入索引 website com video title video title 我的网站生成我的视频文章的双 URL 副本 每篇视频文章的 URL 开头均以 视频 一词开头 所以
  • Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?

    下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理 抓取延迟值仅供说明之用 在真实的 robots txt 文件中会有所不同 我在整个网络上搜索了正确的答案 但找不到 有太多混合的建议 我不知道哪个是正
  • robots.txt htaccess 阻止谷歌

    在我的 htaccess 文件中 我有
  • 禁止在 robots.txt 中使用动态 URL

    我们的网址是 http example com kitchen knife collection maitre universal cutting boards rana parsley chopper cheese slicer vege
  • 是否可以通过robots.txt控制抓取速度?

    我们可以在 robots txt 中告诉机器人抓取或不抓取我们的网站 另一方面 我们可以控制Google Webmasters中的抓取速度 Google bot抓取网站的速度 我想知道是否可以通过robots txt限制爬虫活动 我的意思是
  • 使用“禁止:/*?”在 robots.txt 文件中

    I used Disallow 在 robots txt 文件中禁止所有可能包含 的页面在网址中 该语法是否正确 或者我是否也阻止了其他页面 这取决于机器人 遵循原始 robots txt 规范的机器人不会给出 任何特殊含义 这些机器人会阻

随机推荐

  • Facebook API 用于读取已添加书签的项目

    Facebook 最近添加了一项新功能 允许为有趣的链接添加书签以供以后阅读 保存的链接可在 保存 选项卡中找到 是否有任何 Facebook API 例如 Graph API 用于检索这些保存的项目 用于访问 Facebook 已保存链接
  • 如何进行全局字符串替换而不需要转义所有内容?

    我想用另一个字符串替换字符串中出现的所有模式 例如 让我们将所有 转换为 gt 纯 string replace 仅替换第一个匹配项 replace gives 正则表达式迫使我转义为特殊字符 replace g Pattern is no
  • 如何格式化 Multimarkdown 表格?

    我正在按照以下表格部分下的指南编写 Multimarkdown 表格语法指南 http fletcherpenney net multimarkdown users guide multimarkdown syntax guide 我希望使
  • 将根据数量复制记录的查询

    我正在使用 SQL Server 2008 并寻找一个将根据数量复制记录的查询 表具有 QTY 和 PartNumber 列 需要为每个数量添加一条附加记录 假设零件编号的数量为 3 我需要包含该零件编号的三行 任何帮助将不胜感激 谢谢 测
  • 如何删除注册表中损坏的符号链接

    我正在对注册表进行一些编辑原型 以创建从一个区域到另一个区域的符号链接 我使用了以下代码 HKEY hkFS HKEY hkSOFTWARE DWORD dwDisposition LSTATUS result result RegOpen
  • 比较函数指针

    如何比较 C 中的函数指针 稳定吗 例如 这样的事情是否有效 if pFnc myFnc Do something C 03 5 10 1 expr eq 等于 和 不等于 运算符具有相同的作用 语义限制 转换和结果类型作为关系 运算符 但
  • postgresSQL中NOT IN和NOT EXISTS的区别

    Here s my table 当我使用 NOT IN 执行以下查询时 它给出了 namal 和 Ann SELECT firstname FROM info student info WHERE firstname NOT IN SELE
  • ClickOnce 或 InstallShield 能否安装 SQL Server 或 SQL Server Express?

    可以 ClickOnce 或 InstallShield 设置或配置 SQL Server 或 SQL Server Express 专门添加sa密码 启用命名管道 授予从文件夹读取的权限 添加主数据库 mdf我的客户端应用程序所需的文件
  • Swift SpriteKit SKSpriteNode 的“有时”不出现

    我正在使用 Swift 和 SpriteKit 制作 iOS 但是 我的应用程序运行时遇到不规则现象 有时船舶 SKSpriteNodes 不会出现在屏幕上 有时子弹的 SKSpriteNodes 不会出现 有时一切都显示良好 我将子弹添加
  • AlertDialog 中的资源 ID #0x0

    我添加一个AlertDialog在 kotlin 文件中 但出现异常 btnLogin setOnClickListener view gt login fun login val builder AlertDialog Builder t
  • 如何对整数字符串进行排序?

    我在对具有整数值的字符串列表进行排序时遇到一个奇怪的问题 然而 某些值可以以某些字符作为前缀 e g B1 5 50 A10 7 72 B3 A1 A2 基本上有页码 应该按如下方式排序 A1 A2 A10 B1 B3 5 7 50 72
  • 我们可以让聊天机器人先说问候语,而不仅仅是作为反应吗

    我正在使用 Microsoftt Bot Framework 和 LUIS 认知服务开发聊天机器人 我想要一条初始欢迎消息 例如 你好 用户 你好吗 我的机器人一启动 在 MessageController 中可以做任何事情 public
  • 在 gitlab-ci.yml 上动态设置工件路径/文件夹结构

    我有以下内容gitlab ci yml读取的文件package json使用jq https stedolan github io jq 处理器动态设置工件文件夹的变量名称 类似于 image node latest stages buil
  • Angular 2 - FormGroup ValueChanges 取消订阅

    我有一个带有 ValueChanges 事件的 FormGroup 当用户从组件的路由移动到另一个组件然后返回到该组件时 该事件不会从内存中释放 这意味着 如果用户离开组件然后返回组件 5 次 则 onFormChange 方法会触发 5
  • 在 IE 和 Chrome 中动态加载 jQuery

    我正在创建一个使用 jQuery 的外部小部件 而不是让用户单独包含它 我想检查它是否已加载 如果没有加载 则动态加载它 问题是我需要等到它加载后才能执行脚本的其余部分 这需要 IE 和 FF Chrome 处理不同的事件处理程序 如果我这
  • 帮助处理 Android 库项目中的自定义视图属性

    我在 Android 库项目中有一个自定义 PieTimer 视图 package com mysite android library pietimer public class PieTimerView extends View 我还有
  • Intel 指令文档中未使用 XMM 寄存器 0

    在 Intel x64 手册中 它说 32 位 SSE2 模式下有 XMM 寄存器 0 7 那么为什么 95 使用这些寄存器的指令会跳过 0 并使用 1 4 例如Intel的vol 2手册entry https www felixclout
  • 如何使用CSS为html字符添加边框颜色?

    我目前的任务是在显示某些数据时在不同颜色的 pandas DataFrame 表内创建检查 我找到了以下内容 p I will display span style color green 10004 span p p I will dis
  • 使用数组 eltype 实现采样器

    钩入rand过去更容易 我想我遵循了描述在文档中 https docs julialang org en v1 stdlib Random A simple sampler without pre computed data 1 但它似乎不
  • 禁止在 robots.txt 中使用动态 URL

    我们的网址是 http example com kitchen knife collection maitre universal cutting boards rana parsley chopper cheese slicer vege