Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭]

2023-12-22

我想允许爬虫访问我的域的根目录（即index.html 文件），但没有更深入的目录（即没有子目录）。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容，但我认为它阻止了一切，包括域根目录中的内容。

User-agent: *
Allow: /$
Disallow: /

我如何编写 robots.txt 来完成我正在尝试的任务？

提前致谢！

没有什么东西适合所有的爬虫。有两个选项可能对您有用。

允许通配符的机器人应该支持以下内容：

Disallow: /*/

主要的搜索引擎爬虫可以理解通配符，但不幸的是大多数较小的搜索引擎爬虫不能理解。

如果根目录中的文件相对较少并且不经常添加新文件，则可以使用Allow只允许访问这些文件，然后使用Disallow: /来限制其他一切。那是：

User-agent: *
Allow: /index.html
Allow: /coolstuff.jpg
Allow: /morecoolstuff.html
Disallow: /

这里的顺序很重要。爬行者应该拿下第一场比赛。所以如果你的第一条规则是Disallow: /，一个行为正常的爬虫不会到达以下位置Allow lines.

如果爬虫不支持Allow，然后它会看到Disallow: /并且不会抓取您网站上的任何内容。当然，前提是它忽略 robots.txt 中它不理解的内容。

各大搜索引擎爬虫均支持Allow，而且许多较小的也这样做。它很容易实现。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

robotstxt

Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭] 的相关文章

robots.txt 文件放在哪里？ [关闭]

Closed 这个问题是无关目前不接受答案 robots txt应该放在哪里 domainname com robots txt or domainname public html robots txt 我将文件放入domainname
robots.txt 的正则表达式

我正在尝试设置 robots txt 但我不确定正则表达式我有四个不同的页面全部以三种不同的语言提供我想我可以使用正则表达式而不是列出每个页面乘以 3 nav aspx page aspx changelang 可能附加一个查询字符
如何在 ASP.NET MVC 中添加动态 robots.txt 的路由？

我有一个不是静态的而是动态生成的 robots txt 我的问题是创建从 root robots txt 到我的控制器操作的路由 This works routes MapRoute name Robots url robots defau
robots.txt 中没有索引

我总是阻止谷歌使用 robots txt 文件为我的网站建立索引最近我读到了谷歌员工的一篇文章他说你应该使用元标签来做到这一点这是否意味着 Robots txt 不起作用由于我正在使用 CMS 我的选择非常有限并且仅使用 robo
禁止目录内容，但允许 robots.txt 中的目录页面

这是否适用于禁止目录下的页面但仍允许该目录 url 上的页面 Allow special offers Disallow special offers 允许 www mysite com special offers 但阻止 www my
robots.txt - 这有效吗？

我刚刚遇到了一个 robots txt 如下所示 User agent Disallow foobar User agent badbot Disallow 仅禁止所有文件夹后具体是否badbot规则是否适用注意此问题仅用于理解上述规
如何设置仅允许站点默认页面的robot.txt

假设我有一个网站http example com http example com 我真的很想让机器人看到主页但任何其他页面都需要被阻止因为它对蜘蛛来说毫无意义换句话说 http example com http example co
Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想允许爬虫访问我的域的根目录即index html 文件但没有更深入的目录即没有子目录我不想在 robots txt 文件中单独列出和拒绝每
Robots.txt优先问题

如果 robots txt 中有这些行 Disallow folder Allow folder filename php 那么 filename php 会被允许吗谷歌对这些行的优先顺序是什么例如这里会发生什么 Allow Disa
robots.txt URL 格式

根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式然而我注意到堆栈溢出机器人 txt https stackov
如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt？

我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re
robots.txt 只允许root，禁止其他一切？

我似乎无法让它发挥作用但它似乎非常基本我想要抓取域根 http www example com 但没有其他可爬行的内容并且所有子目录都是动态的 http www example com I tried User agent Allow
Scrapy 和 robots.txt 的尊重

我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应是否意味着url不受robots txt保护根据文档只有当您使用创建项
我可以在 robots.txt 中使用“Host”指令吗？

Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c
Django 应用程序中 robots.txt 的推荐指令是什么？

目前我的 Django 项目具有以下结构 app1 app2 django project manage py media static secret stuff and my robots txt看起来像这样 User agent All
Robots.txt 类别 URL 限制

我无法找到有关我的案件的信息我想限制以下类型的 URL 被编入索引 website com video title video title 我的网站生成我的视频文章的双 URL 副本每篇视频文章的 URL 开头均以视频一词开头所以
BOT/蜘蛛陷阱创意

我有一个客户他的域名似乎受到 DDoS 攻击的严重打击在日志中看起来很正常的具有随机 IP 的用户代理但它们翻阅页面的速度太快不像人类他们似乎也没有要求任何图像我似乎找不到任何模式我怀疑这是一群 Windows 僵尸客户过
尽管文件可访问，但“Lighthouse 无法下载 robots.txt 文件”

我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
Ruby on Rails robots.txt 文件夹

我即将启动 Ruby on Rails 应用程序作为最后一个任务我想设置机器人 txt文件我找不到有关如何为 Rails 应用程序正确编写路径的信息起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径那
阻止搜索引擎抓取目录

我的网站有这样的 URL 最长结构 http www example com xyz pqr abcd efgh 123 html http www example com xyz pqr abcd efgh 123 html 因此最多有

随机推荐

Perl 的“not”运算符未按预期与 Defined() 函数配合使用

以下代码片段未按预期工作 k foo 1 k bar 2 if not defined k foo not defined k bar print Not defined n else print Defined 由于 k foo 和 k
“重建解决方案”编译成功的解决方案中的网站无法启动调试器

我有一个包含网站的解决方案使用网站模板而不是 Web 应用程序项目模板创建顺便说一句转换不是一个选项当我重建所有内容时编译成功但奇怪地显示 3 个错误所有这些错误都是无法获取项目引用 PROJNAME 的依赖项当我尝试启动
android：从网络加载svg文件并将其显示在图像视图上

我想从网络加载 svg 文件并在 ImageView 中显示该文件对于非矢量图像我使用Picasso http square github io picasso 图书馆是否也可以将此库用于 svg 文件有没有办法从网络加载 svg 文
gdb python 脚本：`parse_and_eval` 去哪儿了？

我有一些 Python 脚本可以帮助我调试使用该函数的 GDBgdb parse and eval http sourceware org gdb current onlinedocs gdb Basic Python html Basic
通过 getattr 访问方法

我偶然发现了这种行为这表明您可以使用getattr调用类实例上的方法作为直观命名的替代方法operator methodcaller from operator import methodcaller class Foo def ini
如何调用与 Scala 关键字同名的 Java 方法？ [复制]

这个问题在这里已经有答案了可能的重复将 Java Lib 与 Scala 保留字结合使用 https stackoverflow com questions 1793984 using java lib with scala reser
如何在android中清除我的列表视图

我已将 ListAdapter 包含在我的 EMPLOYEE 类中 list1 包含 Empname 的值 Eno 从网络服务获取的薪水现在显示员工中的 5 条记录后屏幕当我单击部门活动并返回员工时初始 5 条记录被追加到列
使用 jQuery 更改表格的边框？

我有一个由 Sphinx 生成的表格其边框宽度为 1 table border 1 class docutils 我可以使用 jQuery javascript 将边框宽度更改为 0 吗是的你可以您想使用attr 函数 http ap
获取包的所有类

如何获取给定包中所有类的列表我试过这个 import scala reflect runtime currentMirror gt cm val classes cm staticPackage scala collection muta
对 Cordova/Phonegap 的 SIP 支持

是否有可能在 Cordova Phonegap 中使用 SIP 我还没有找到任何插件对 WebRTC 的支持也不可用但根据他们的路线图计划在 2 x 中提供配套SIP or WebRTC在 Android 上与PhoneGap Co
确定图是否是 K 顶点连通的

我正在寻找一种多项式时间算法该算法以图形 G 和整数 K 的形式输入并确定 G 是否是 K 顶点连接的我认为这可能会利用深度优先搜索我可以看到使用非多项式解决方案怎么可能没有即仅删除 K 个随机顶点运行 DFS 来检查连通性
EntityFramework 7 与 Azure 表存储提供程序代码示例

寻找 EF7 与 Azure 表存储提供程序的一些代码示例 Azure 表存储提供程序是一个原型直到 1 0 之后才受到 EF Core 的支持看https github com aspnet EntityFramework issue
我可以在 gradle 中使用compileOnly 来替代annotationProcessor 吗？

我目前对注释处理器的理解是它指的是预先解析文件以查找某些注释并基于该注释生成或更改其他代码的代码它发生在项目的常规编译阶段之前在 gradle 中我们通常使用 apt kpt 我有时看到使用annotationProcessor
如何将数据添加到Android StaggeredGridView底部而不返回顶部？

I m use 交错网格视图 https github com maurycyw StaggeredGridView在我的项目中当滚动到底部时我将数据添加到交错网格视图中但网格视图已返回顶部我不希望它返回顶部下面是Staggere
Django 类别和子类别搜索

我正在尝试使用类似的类别实现this one http code djangoproject com wiki CookBookCategoryDataModelPostMagic在 Django 维基中我想知道 Django 执行搜索的
使用 openpyxl 折叠多行

有没有办法使用折叠多行openpyxl 似乎没有与上找到的示例等效的行openpyxl简单使用页面 http openpyxl readthedocs org en latest usage html import openpyxl wb
为什么 git 提示我输入拉取后合并提交消息？

最近随着任何git pull git 已经开始生成我的文本编辑器并请求合并提交消息提交消息已预先填写我只需保存并关闭窗口即可完成拉取在过去它会使用标准提交消息沿着Merge branch dev of remote com r
在 asp.net 中转义/重组 html 的安全隐患（围绕 validateRequest）

当我提交具有如下值的表单时我感到 asp Net 呕吐
tomcat7-maven-plugin extraDependency 似乎未加载

我一直在使用 tomcat7 maven plugin 我想运行我的 web 应用程序它使用嵌入式 tomcat 连接到 PostgreSQL 数据库这是我的 POM 文件的相关部分
Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想允许爬虫访问我的域的根目录即index html 文件但没有更深入的目录即没有子目录我不想在 robots txt 文件中单独列出和拒绝每

Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭]

Robots.txt，如何只允许访问域根目录，而不允许更深层次的访问？ [关闭] 的相关文章

随机推荐

热门标签