Robots.txt,如何只允许访问域根目录,而不允许更深层次的访问? [关闭]

2023-12-22

我想允许爬虫访问我的域的根目录(即index.html 文件),但没有更深入的目录(即没有子目录)。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容,但我认为它阻止了一切,包括域根目录中的内容。

User-agent: *
Allow: /$
Disallow: /

我如何编写 robots.txt 来完成我正在尝试的任务?

提前致谢!


没有什么东西适合所有的爬虫。有两个选项可能对您有用。

允许通配符的机器人应该支持以下内容:

Disallow: /*/

主要的搜索引擎爬虫可以理解通配符,但不幸的是大多数较小的搜索引擎爬虫不能理解。

如果根目录中的文件相对较少并且不经常添加新文件,则可以使用Allow只允许访问这些文件,然后使用Disallow: /来限制其他一切。那是:

User-agent: *
Allow: /index.html
Allow: /coolstuff.jpg
Allow: /morecoolstuff.html
Disallow: /

这里的顺序很重要。爬行者应该拿下第一场比赛。所以如果你的第一条规则是Disallow: /,一个行为正常的爬虫不会到达以下位置Allow lines.

如果爬虫不支持Allow,然后它会看到Disallow: /并且不会抓取您网站上的任何内容。当然,前提是它忽略 robots.txt 中它不理解的内容。

各大搜索引擎爬虫均支持Allow,而且许多较小的也这样做。它很容易实现。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Robots.txt,如何只允许访问域根目录,而不允许更深层次的访问? [关闭] 的相关文章

  • robots.txt 文件放在哪里? [关闭]

    Closed 这个问题是无关 目前不接受答案 robots txt应该放在哪里 domainname com robots txt or domainname public html robots txt 我将文件放入domainname
  • robots.txt 的正则表达式

    我正在尝试设置 robots txt 但我不确定正则表达式 我有四个不同的页面 全部以三种不同的语言提供 我想我可以使用正则表达式 而不是列出每个页面乘以 3 nav aspx page aspx changelang 可能附加一个查询字符
  • 如何在 ASP.NET MVC 中添加动态 robots.txt 的路由?

    我有一个不是静态的而是动态生成的 robots txt 我的问题是创建从 root robots txt 到我的控制器操作的路由 This works routes MapRoute name Robots url robots defau
  • robots.txt 中没有索引

    我总是阻止谷歌使用 robots txt 文件为我的网站建立索引 最近我读到了谷歌员工的一篇文章 他说你应该使用元标签来做到这一点 这是否意味着 Robots txt 不起作用 由于我正在使用 CMS 我的选择非常有限 并且仅使用 robo
  • 禁止目录内容,但允许 robots.txt 中的目录页面

    这是否适用于禁止目录下的页面 但仍允许该目录 url 上的页面 Allow special offers Disallow special offers 允许 www mysite com special offers 但阻止 www my
  • robots.txt - 这有效吗?

    我刚刚遇到了一个 robots txt 如下所示 User agent Disallow foobar User agent badbot Disallow 仅禁止所有文件夹后 具体是否badbot规则是否适用 注意 此问题仅用于理解上述规
  • 如何设置仅允许站点默认页面的robot.txt

    假设我有一个网站http example com http example com 我真的很想让机器人看到主页 但任何其他页面都需要被阻止 因为它对蜘蛛来说毫无意义 换句话说 http example com http example co
  • Robots.txt,如何只允许访问域根目录,而不允许更深层次的访问? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我想允许爬虫访问我的域的根目录 即index html 文件 但没有更深入的目录 即没有子目录 我不想在 robots txt 文件中单独列出和拒绝每
  • Robots.txt优先问题

    如果 robots txt 中有这些行 Disallow folder Allow folder filename php 那么 filename php 会被允许吗 谷歌对这些行的优先顺序是什么 例如 这里会发生什么 Allow Disa
  • robots.txt URL 格式

    根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式 然而 我注意到堆栈溢出机器人 txt https stackov
  • 如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt?

    我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re
  • robots.txt 只允许root,禁止其他一切?

    我似乎无法让它发挥作用 但它似乎非常基本 我想要抓取域根 http www example com 但没有其他可爬行的内容 并且所有子目录都是动态的 http www example com I tried User agent Allow
  • Scrapy 和 robots.txt 的尊重

    我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应 是否意味着url不受robots txt保护 根据文档 只有当您使用创建项
  • 我可以在 robots.txt 中使用“Host”指令吗?

    Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c
  • Django 应用程序中 robots.txt 的推荐指令是什么?

    目前我的 Django 项目具有以下结构 app1 app2 django project manage py media static secret stuff and my robots txt看起来像这样 User agent All
  • Robots.txt 类别 URL 限制

    我无法找到有关我的案件的信息 我想限制以下类型的 URL 被编入索引 website com video title video title 我的网站生成我的视频文章的双 URL 副本 每篇视频文章的 URL 开头均以 视频 一词开头 所以
  • BOT/蜘蛛陷阱创意

    我有一个客户 他的域名似乎受到 DDoS 攻击的严重打击 在日志中 看起来很正常的具有随机 IP 的用户代理 但它们翻阅页面的速度太快 不像人类 他们似乎也没有要求任何图像 我似乎找不到任何模式 我怀疑这是一群 Windows 僵尸 客户过
  • 尽管文件可访问,但“Lighthouse 无法下载 robots.txt 文件”

    我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
  • Ruby on Rails robots.txt 文件夹

    我即将启动 Ruby on Rails 应用程序 作为最后一个任务 我想设置机器人 txt文件 我找不到有关如何为 Rails 应用程序正确编写路径的信息 起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径 那
  • 阻止搜索引擎抓取目录

    我的网站有这样的 URL 最长 结构 http www example com xyz pqr abcd efgh 123 html http www example com xyz pqr abcd efgh 123 html 因此最多有

随机推荐