是否可以通过robots.txt控制抓取速度?

2024-04-15

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制Google Webmasters中的抓取速度(Google bot抓取网站的速度)。我想知道是否可以通过robots.txt限制爬虫活动

我的意思是接受机器人抓取页面,但按时间、页面或大小限制它们的存在!


您可以在 robots.txt 中使用一项指令,它是“爬行延迟”。

Crawl-delay: 5

这意味着机器人每 5 秒爬行的页面数不应超过一页。 但据我所知,robots.txt 并未正式支持该指令。

还有一些机器人根本不真正接受 count robots.txt 文件。 因此,即使您禁止访问某些页面,它们仍然可能会被一些机器人抓取,当然不是像谷歌这样最大的机器人。

例如,百度可能会忽略 robots.txt,但这并不确定。

我没有这个信息的官方来源,所以你可以谷歌一下。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以通过robots.txt控制抓取速度? 的相关文章

  • shebang/hashbang 是做什么用的?

    除了使 AJAX 内容可供 Google 抓取外 shebangs hashbangs 是否还有其他用途 或者就是这样 在 URL 中使用的哈希早在 Ajax 发明之前就已经存在了 它最初的目的是作为页面内子部分的引用 在这种情况下 例如
  • robots.txt 中没有索引

    我总是阻止谷歌使用 robots txt 文件为我的网站建立索引 最近我读到了谷歌员工的一篇文章 他说你应该使用元标签来做到这一点 这是否意味着 Robots txt 不起作用 由于我正在使用 CMS 我的选择非常有限 并且仅使用 robo
  • 禁止目录内容,但允许 robots.txt 中的目录页面

    这是否适用于禁止目录下的页面 但仍允许该目录 url 上的页面 Allow special offers Disallow special offers 允许 www mysite com special offers 但阻止 www my
  • 为孩子们建立安全的搜索引擎?

    我今年的项目 为孩子们建立安全的搜索引擎 所以我需要一些信息 1 在哪里可以找到有关该主题的一些研究 论文 2 如何利用开源工具 3 我的项目需要学习哪些技术 和一些建议请 thanks 更新 安全意味着当孩子们搜索任何内容时他们看不到相关
  • 如何设置仅允许站点默认页面的robot.txt

    假设我有一个网站http example com http example com 我真的很想让机器人看到主页 但任何其他页面都需要被阻止 因为它对蜘蛛来说毫无意义 换句话说 http example com http example co
  • Drupal 搜索引擎不索引我的自定义节点!

    大约一个小时前 有人发布了一个关于 drupal 搜索引擎的问题 内容如下 我知道 drupal 应该对返回的任何内容进行索引node view 但我的自定义内容不会发生这种情况 另外 Drupal 内置功能是否有更好的替代方案 由于问题在
  • Solr 3.6 出现一些延迟后,文档得到了反映

    使用 Solr 3 6 进行 ASP net 应用程序 我们正在使用 SolrNet 库 我们有一个用 asp net 编写的自定义程序 用于使用 SolrNet 将文档增量添加到 Solr 这监视将文档插入 Solr 的进度 问题是 应用
  • 将输入字段焦点设置为开始输入

    我正在寻找一种方法 能够在不选择任何内容的情况下开始在网站上打字 然后聚焦特定的输入字段 谷歌也采用了这个功能 在他们的搜索结果中 您可以单击任意位置 使搜索字段失去焦点 当您开始输入时 它会自动再次聚焦在搜索字段上 我正在考虑将 jQue
  • robots.txt URL 格式

    根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式 然而 我注意到堆栈溢出机器人 txt https stackov
  • 是否可以在 GitHub 上搜索特定文件名?

    我知道 GitHub Web 界面可让您在所有存储库中搜索具有特定路径名的文件 例如搜索path app models user rb产生 gt 109k 结果 但是有没有一种方法可以在所有存储库中搜索独立于其子目录位置的文件名 我尝试在中
  • 如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt?

    我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re
  • mg4j 与 apache lucene

    谁能对这些搜索引擎进行简单的比较分析 这两个框架都有什么优点 顺便说一句 我看到了以下选择的基本解释mg4j http mg4j dsi unimi it 摘自多篇学术论文 组合同一集合上的索引 多索引查询 Update 这些幻灯片 htt
  • 搜索引擎 Lucene 与数据库搜索

    我正在使用 MySQL 数据库 并且一直在使用数据库驱动的搜索 数据库引擎和Lucene搜索引擎有何优缺点 我想获得有关何时何地使用它们的建议 我建议你阅读全文搜索引擎与 DBMS https lucidworks com 2009 09
  • 如何为网站制作一个搜索引擎? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我想为我的网站安装一个搜索引擎 这些网络搜索引擎 如 Google yahoo 等 是否提供免费服务 或者我应该自己做 Maybe 谷
  • 为什么 Chrome 要求 robots.txt?

    我在日志中注意到 Chrome 请求了robots txt和我所期望的一切一样 2017 09 17 15 22 35 sanic INFO Goin Fast http 0 0 0 0 8080 2017 09 17 15 22 35 s
  • 具有大量动态子域的站点的站点地图

    我正在运行一个允许用户创建子域的网站 我想通过站点地图将这些用户子域提交给搜索引擎 但是 根据站点地图协议 和 Google 网站管理员工具 单个站点地图只能包含来自单个主机的 URL 最好的方法是什么 目前我有以下结构 站点地图索引位于
  • SOLR 权限/根据访问权限过滤结果

    例如 我有文档 A B C 用户 1 必须只能看到文档 A B 用户 2 必须只能看到文档 C 是否可以在 SOLR 中执行此操作而不通过元数据进行过滤 如果我使用元数据过滤器 每次访问权限发生变化时 我都必须重新索引 2012 年 2 月
  • 如何在elasticsearch中配置synonym_path

    我对 elasticsearch 很陌生 我想使用同义词 我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
  • Lucene 评分:在什么情况下使用 queryNorm?

    我对 lucene 的评分策略有点困惑 我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
  • 在一个后台为MYSQL的网站上集成搜索

    我有一个位置搜索website http www jammulinks com对于一个城市 我们首先收集该城市所有可能类别的数据 如学校 学院 百货商店等 并将其信息存储在单独的表中 因为每个条目除了名称 地址和电话号码外都有不同的详细信息

随机推荐