是否可以通过robots.txt控制抓取速度？

2024-04-15

我们可以在 robots.txt 中告诉机器人抓取或不抓取我们的网站。另一方面，我们可以控制Google Webmasters中的抓取速度（Google bot抓取网站的速度）。我想知道是否可以通过robots.txt限制爬虫活动

我的意思是接受机器人抓取页面，但按时间、页面或大小限制它们的存在！

您可以在 robots.txt 中使用一项指令，它是“爬行延迟”。

Crawl-delay: 5

这意味着机器人每 5 秒爬行的页面数不应超过一页。但据我所知，robots.txt 并未正式支持该指令。

还有一些机器人根本不真正接受 count robots.txt 文件。因此，即使您禁止访问某些页面，它们仍然可能会被一些机器人抓取，当然不是像谷歌这样最大的机器人。

例如，百度可能会忽略 robots.txt，但这并不确定。

我没有这个信息的官方来源，所以你可以谷歌一下。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

searchengine

robotstxt

googlecrawlers

是否可以通过robots.txt控制抓取速度？的相关文章

shebang/hashbang 是做什么用的？

除了使 AJAX 内容可供 Google 抓取外 shebangs hashbangs 是否还有其他用途或者就是这样在 URL 中使用的哈希早在 Ajax 发明之前就已经存在了它最初的目的是作为页面内子部分的引用在这种情况下例如
robots.txt 中没有索引

我总是阻止谷歌使用 robots txt 文件为我的网站建立索引最近我读到了谷歌员工的一篇文章他说你应该使用元标签来做到这一点这是否意味着 Robots txt 不起作用由于我正在使用 CMS 我的选择非常有限并且仅使用 robo
禁止目录内容，但允许 robots.txt 中的目录页面

这是否适用于禁止目录下的页面但仍允许该目录 url 上的页面 Allow special offers Disallow special offers 允许 www mysite com special offers 但阻止 www my
为孩子们建立安全的搜索引擎？

我今年的项目为孩子们建立安全的搜索引擎所以我需要一些信息 1 在哪里可以找到有关该主题的一些研究论文 2 如何利用开源工具 3 我的项目需要学习哪些技术和一些建议请 thanks 更新安全意味着当孩子们搜索任何内容时他们看不到相关
如何设置仅允许站点默认页面的robot.txt

假设我有一个网站http example com http example com 我真的很想让机器人看到主页但任何其他页面都需要被阻止因为它对蜘蛛来说毫无意义换句话说 http example com http example co
Drupal 搜索引擎不索引我的自定义节点！

大约一个小时前有人发布了一个关于 drupal 搜索引擎的问题内容如下我知道 drupal 应该对返回的任何内容进行索引node view 但我的自定义内容不会发生这种情况另外 Drupal 内置功能是否有更好的替代方案由于问题在
Solr 3.6 出现一些延迟后，文档得到了反映

使用 Solr 3 6 进行 ASP net 应用程序我们正在使用 SolrNet 库我们有一个用 asp net 编写的自定义程序用于使用 SolrNet 将文档增量添加到 Solr 这监视将文档插入 Solr 的进度问题是应用
将输入字段焦点设置为开始输入

我正在寻找一种方法能够在不选择任何内容的情况下开始在网站上打字然后聚焦特定的输入字段谷歌也采用了这个功能在他们的搜索结果中您可以单击任意位置使搜索字段失去焦点当您开始输入时它会自动再次聚焦在搜索字段上我正在考虑将 jQue
robots.txt URL 格式

根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式然而我注意到堆栈溢出机器人 txt https stackov
是否可以在 GitHub 上搜索特定文件名？

我知道 GitHub Web 界面可让您在所有存储库中搜索具有特定路径名的文件例如搜索path app models user rb产生 gt 109k 结果但是有没有一种方法可以在所有存储库中搜索独立于其子目录位置的文件名我尝试在中
如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt？

我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re
mg4j 与 apache lucene

谁能对这些搜索引擎进行简单的比较分析这两个框架都有什么优点顺便说一句我看到了以下选择的基本解释mg4j http mg4j dsi unimi it 摘自多篇学术论文组合同一集合上的索引多索引查询 Update 这些幻灯片 htt
搜索引擎 Lucene 与数据库搜索

我正在使用 MySQL 数据库并且一直在使用数据库驱动的搜索数据库引擎和Lucene搜索引擎有何优缺点我想获得有关何时何地使用它们的建议我建议你阅读全文搜索引擎与 DBMS https lucidworks com 2009 09
如何为网站制作一个搜索引擎？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想为我的网站安装一个搜索引擎这些网络搜索引擎如 Google yahoo 等是否提供免费服务或者我应该自己做 Maybe 谷
为什么 Chrome 要求 robots.txt？

我在日志中注意到 Chrome 请求了robots txt和我所期望的一切一样 2017 09 17 15 22 35 sanic INFO Goin Fast http 0 0 0 0 8080 2017 09 17 15 22 35 s
具有大量动态子域的站点的站点地图

我正在运行一个允许用户创建子域的网站我想通过站点地图将这些用户子域提交给搜索引擎但是根据站点地图协议和 Google 网站管理员工具单个站点地图只能包含来自单个主机的 URL 最好的方法是什么目前我有以下结构站点地图索引位于
SOLR 权限/根据访问权限过滤结果

例如我有文档 A B C 用户 1 必须只能看到文档 A B 用户 2 必须只能看到文档 C 是否可以在 SOLR 中执行此操作而不通过元数据进行过滤如果我使用元数据过滤器每次访问权限发生变化时我都必须重新索引 2012 年 2 月
如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
Lucene 评分：在什么情况下使用 queryNorm？

我对 lucene 的评分策略有点困惑我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
在一个后台为MYSQL的网站上集成搜索

我有一个位置搜索website http www jammulinks com对于一个城市我们首先收集该城市所有可能类别的数据如学校学院百货商店等并将其信息存储在单独的表中因为每个条目除了名称地址和电话号码外都有不同的详细信息

随机推荐

D3：细化序数比例以返回颜色组？

我已经设置了一个序数尺度D3 js https github com mbostock d3 wiki API Reference如下到目前为止效果很好 var color d3 scale ordinal range blue red
当用户导航到一个域内的其他页面时，谷歌分析如何跟踪事件

在 Google 的文档中据说可以通过以下方式跟踪事件 a click me a 或旧版本 a click me a 我正在使用 Firebug 查看单击链接时发出的请求我看到有中止的请求 http www google analyti
从对象中获取数据

我正在尝试使用此代码从用户的 Twitter 帐户获取数据 user info twitteroauth gt get account verify credentials 我在一个对象中得到一个很长的值 stdClass Object i
java中的子包类可以访问父包类吗？

在java父包类中可以从子包类访问吗请给我解释一下吗例子包 A A1 A2 包含类 sub 包A包含类sup 有没有办法从 sub 访问 super 请解释一下我尝试导入它不起作用例子在程序目录结构之前 package1 包含
为什么每次保存文件时 vim 都会创建一个新文件？

我有一个名为test test mypc ls i 4982967 test 然后我使用vim更改其内容并输入 w来保存它它现在有一个不同的索引节点 test mypc ls i 4982968 test 这意味着它已经是一个不同的文件了
如何使用 LINQ to Entities 包含另一个表中的一个特定行

我有一个包含这两个表的数据库 Customer and CustomerStatus CustomerStatus是所谓的只读表对客户状态的所有更改都会导致插入到该表中当前客户状态可通过以下方式找到CustomerStatus Stat
无法显示 Firebase 存储中的图像

我正在使用新的 Firebase 存储并上传图像然后获取下载网址将下载网址转换为字符串后我使用它在我的活动中显示但它只显示下载网址我使用下面的代码上传图像并获取下载网址 dialogBuilder setTitle Add Sho
容器 div 标签的 100% 高度和宽度不起作用

我的网页布局如下以下 CSS 代码在 Internet Explorer 9 中为我提供了 100 的高度和宽度虽然同样在 FF 和 Chrome 中为我提供了 100 的宽度但不是 100 的高度我尝试了几个例子其中大多数都有相
在 Android 浏览器中获取当前 URL

我正在寻找一种方法来获取用户在 Android 浏览器应用程序上访问的当前 URL 我发现我可以从以下位置获取上次访问的 URLBrowser BOOKMARKS URI使用以下技术的数据库 Cursor cursor context ge
MySQL解释过滤列跳转4100带索引

我的查询 EXPLAIN EXTENDED SELECT artwork id artwork added FROM artwork ORDER BY artwork added DESC LIMIT 0 6 当我在添加上添加索引以避免
通过截断有效地将 OracleDecimal 转换为 .NET 十进制

当我尝试使用 C 将以下 Oracle 空间对象转换为坐标集小数时出现算术溢出异常 decimal OracleUdt GetValue MDSYS SDO GEOMETRY 2001 1041001 MDSYS SDO POINT
如果搜索文本中的术语被换行符打破，如何使用 RegEx 查找术语

假设我正在搜索申请人正如我之前发生过的事情一样我收到一个如下的文本文件 We have considered the applica nt s experience and qualification and wish to gran
模拟 Rails.env.development？使用 rspec

我正在使用 rspec 编写单元测试我想模拟 Rails env development 返回 true 我怎样才能做到这一点我试过这个 Rails env stub development nil and return true 它抛
URI 中的路径可以包含 unicode 吗？

有效的 URL 是否可以包含非转义的 Unicode 字符是的 URI 中允许未转义的 ASCII 以及 Unicode 子集例如字母和数字但大多数 Unicode 字符集都必须进行百分比编码
MOXy 在 2.6.0 版本中支持非字符串 @XmlID 吗？

根据https gist github com VineetReynolds 5108580 https gist github com VineetReynolds 5108580 JAXB 规范要求元素注释为 XmlID成为一个Stri
如何启动 Perl 的交互式控制台？

如何启动 Perl 的交互式控制台类似于irbRuby 命令或python对于Python 您可以在一个简单的程序上使用 perl 调试器如下所示 perl de1 该命令将启动 Perl 调试器 d 表达式1 e1 因为调试器想要调试
消除java中的“\u3000”错误

当我尝试编译java文件时编译器说非法字符 u3000 经过搜索我发现是中日韩统一表意文字 https en wikipedia org wiki CJK Unified Ideographs中韩日的SPACE 我决定编写一个简单的搜
如何使用 PhoneGap/Cordova 创建适用于 Windows Phone 7 的简单全景应用程序？

我环顾四周发现了几个适用于 Windows Phone 7 的基于 PhoneGap Cordova 的 HTML5 应用程序的示例但它们似乎都没有向您展示如何制作全景或枢轴样式应用程序而这些是该应用程序的一些主要吸引力操作系统的用
将私钥作为字符串的 Java SFTP 客户端

Apache Commons 和 JSch 都需要私钥文件来建立 SFTP 连接我正在从事的项目将用于连接到多个 SFTP 服务器因此我们不希望部署多个私钥文件而是将这些密钥作为字符串保存在加密的配置文件中是否有不需要私钥文件对象
是否可以通过robots.txt控制抓取速度？

我们可以在 robots txt 中告诉机器人抓取或不抓取我们的网站另一方面我们可以控制Google Webmasters中的抓取速度 Google bot抓取网站的速度我想知道是否可以通过robots txt限制爬虫活动我的意思是

是否可以通过robots.txt控制抓取速度？

是否可以通过robots.txt控制抓取速度？ 的相关文章

随机推荐

热门标签

是否可以通过robots.txt控制抓取速度？的相关文章