我可以在 robots.txt 中使用“Host”指令吗?

2024-01-27

Searching for specific information on the robots.txt, I stumbled upon a Yandex help page http://help.yandex.com/webmaster/controlling-robot/robots-txt.xml#host on this topic. It suggests that I could use the Host directive to tell crawlers my preferred mirror domain:

User-Agent: *
Disallow: /dir/
Host: www.example.com

另外,维基百科文章 https://en.wikipedia.org/wiki/Robots_exclusion_standard#Host表示谷歌也了解Host指令,但没有太多(即骨头)信息。

At robotstxt.org http://www.robotstxt.org/,我没有找到任何东西Host (or Crawl-delay如维基百科所述)。

  1. 是否鼓励使用Host根本有指令吗?
  2. 谷歌有这方面的资源吗robots.txt具体的?
  3. 与其他爬虫的兼容性如何?

At least since the beginning of 2021, the linked entry does not deal with the directive in question any longer.


The 原始 robots.txt 规范 http://www.robotstxt.org/orig.html#format says:

无法识别的标头将被忽略。

他们称之为“标头”,但这个术语在任何地方都没有定义。但正如在有关格式的部分以及同一段落中提到的User-agent and Disallow,似乎可以安全地假设“标题”意味着“字段名称”。

所以是的,你可以使用Host or any其他字段名称。

  • 支持这些字段的 Robots.txt 解析器,嗯,支持它们。
  • 不支持此类字段的 Robots.txt 解析器必须忽略它们。

但请记住:由于 robots.txt 项目未指定它们,因此您无法确定不同的解析器以相同的方式支持该字段。所以你必须手动检查每个支持的解析器。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我可以在 robots.txt 中使用“Host”指令吗? 的相关文章

  • Safari 添加尾部斜杠

    我有一个 ASP NET 网站 它使用 URLRewrite 2 删除 URL 中的尾部斜杠 我们注意到 Mac 上的 Safari 不遵守此规则 它始终在 URL 中留下尾部斜杠 SEO Moz 显示两个 URL 这似乎是潜在的重复内容问
  • .htaccess 单页301重定向

    网站重新设计后 我有几个页面需要重定向 所有内容都保留在同一个域中 只有一些内容被重新组织和 或重命名 它们的形式如下 contact php is now 联系我们 php 使用 htaccess 文件 我添加了这一行 这是我最推荐的一行
  • PhantomJS 是否支持 ES6 来为爬虫和机器人提供 angularjs 应用程序?

    我正在尝试使用ajax seo https github com liuwenchao ajax seo让 Angularjs 应用程序从 PhantomJS 网络服务器提供 html 编译内容 但它没有呈现完整的页面 它只是给出以下响应
  • 我可以在 Struts 中提供 SEO 友好的 url 吗?

    我想在我的应用程序中拥有 SEO 友好的 url 它将使用 Struts 1 2 在 java j2ee 中构建 我有一些分类如下 county countryname county state statename county state
  • .htaccess RewriteRule 不起作用,需要生成一个友好的 URL

    我有这个动态链接 http www nortedigital mx article php id 36175 t dobla las manos el snte avala reforma educativa 我需要像这样进行 URL 友好
  • Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?

    下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理 抓取延迟值仅供说明之用 在真实的 robots txt 文件中会有所不同 我在整个网络上搜索了正确的答案 但找不到 有太多混合的建议 我不知道哪个是正
  • Google 未显示 React-Helmet 标题和描述

    我使用react helmet 为我的React 应用程序的每个页面提供唯一的标题和描述 当我使用开发工具检查页面时 标题在浏览器选项卡中正确呈现 标题和描述也正确呈现 然而 谷歌并没有在搜索结果中显示标题或描述 我究竟做错了什么 我研究过
  • 我可以在 schema.org 丰富摘要的 Span 标记中使用多个 ItemProps 吗?

    假设我想向以下句子添加丰富的摘要 我在纽约生活和工作 由于纽约既是我的居住地 也是我工作的城市 理论上我希望使用 schema org 标准来标记该行 div I live and work in span New York span di
  • SEO 的查询字符串参数名称

    如果我有一个像这样的网站 google com index html c 123123 p shoes 对于 SEO 来说 将其设置为 google com index html code 123123 footwear shoes 我的意
  • 为什么 Chrome 要求 robots.txt?

    我在日志中注意到 Chrome 请求了robots txt和我所期望的一切一样 2017 09 17 15 22 35 sanic INFO Goin Fast http 0 0 0 0 8080 2017 09 17 15 22 35 s
  • 限制 Wordpress 中现有和新的永久链接 slugs 的大小以进行 SEO

    我在 Google 上读到一篇文章 其中提到为了良好的 SEO 最好将 URL 中的 slug 大小限制为 5 个单词 当我使用 WordPress 时 链接会自动分配给文章标题 要仅用 5 个字重做所有链接 我必须花费数月时间来编辑博客上
  • AngularJS 会影响 SEO 吗?

    我正在使用 Angular JS 开发一个网站 现在我正处于其中 突然有一个问题这是否会影响搜索引擎爬虫 寻找解决方案 据我们所知 截至今天Google 可以处理由 JavaScript 驱动的内容 http googlewebmaster
  • 多语言网站 SEO:无需更改 URL 即可获得特定于语言的结果?

    我有一个有两种语言的网站 英语和瑞典语 我想要的是 如果有人用谷歌搜索瑞典的网站 它应该显示瑞典语的结果 也就是说 我希望瑞典的 Google google se 抓取该网站的瑞典语版本 对于任何其他地方 我希望抓取英文版本 我读了以下内容
  • CakePHP 分页 - 如何从 url 中删除“page:”以获得更好的 seo/更干净的 URL

    当我使用 CakePHP Paging 时 我得到一个像这样的 url http example com php page 2 我必须在控制器 视图和routes php中更改什么才能创建这样的工作网址 http example com p
  • 将 >100K 页面链接在一起而不会受到 SEO 惩罚

    我正在创建一个网站 该网站将审查互联网上数十万个其他网站的隐私政策 它的最初内容是基于我的运行普通爬行 http commoncrawl org 50 亿页网络转储和分析所有隐私政策 https stackoverflow com ques
  • 我网站的 CSS 何时会影响我的搜索引擎排名?

    起初我认为 css 绝对没有什么用处 只是当用户在浏览器中查看文档时设计文档样式 但后来我意识到搜索引擎也在索引页面中使用CSS 搜索引擎不会将内容编入索引display hidden我相信 并且严厉惩罚使用关键字堆叠的网站 用户从未见过的
  • seo - 图像和 h1

    我遇到一种情况 我想坚持使用我的徽标而不是 h1 标签的实际文本 如果我将关键字放在 alt 标签中 而不是实际编写 我会在 SEO 上受到影响吗 文本和图像同时存在更好吗 想法 div h1 a href img src logo jpg
  • 谷歌会索引带有隐藏div的页面吗?

    我开始重新设计和开发一个包含大量文本的网站 并且我正在考虑如何组织网站上的信息 使其看起来更干净 在网站的某些部分 我想实现一个 jquery 切换效果 其中某些内容放置在隐藏的 div 中 并且该内容将根据用户的 onclick 事件显示
  • 阻止搜索引擎抓取目录

    我的网站有这样的 URL 最长 结构 http www example com xyz pqr abcd efgh 123 html http www example com xyz pqr abcd efgh 123 html 因此最多有
  • 谷歌如何知道你正在伪装?

    我似乎找不到任何有关谷歌如何确定您是否是的信息你的内容 从技术角度来看 您认为他们是如何确定这一点的 他们是否发送了 googlebot 之外的其他内容并将其与 googlebot 结果进行比较 他们有人类团队进行比较吗 或者他们可以以某种

随机推荐

  • 如何使用ggplot2将x轴从年更改为月

    我有一个随时间变化的网络访问量图表 其中绘制了从 2014 年至今的每日流量 如下所示 ggplot subset APRA Post Day gt 2013 12 31 aes x Post Day y Page Views geom l
  • php从同一浏览器和同一php脚本同时下载文件

    你好 我有这个简单的代码 强制随机文件下载 我的问题是 如果我从同一个浏览器调用脚本两次或多次 第二次下载将不会开始 直到第一次完成或中断 因此我每次只能下载一个文件 你有什么线索吗 这可能与PHP的会话处理有关 使用默认的会话处
  • Chrome 中的窗口高度错误

    我正在尝试获取 Chrome 浏览器窗口的正确宽度和高度 Firefox 中的大小是正确的 我没有尝试过任何其他浏览器 我已将文档类型设置为 DOCTYPE html并尝试过 window height window width windo
  • 在自定义活动中绘制 TextView?

    我正在实施一个自定义View 我需要在其中绘制一些文本 文本必须适合一个盒子 所以我必须将其分解并使其适合 因此 我想我可以使用TextView并在我的自定义中绘制它View 这是我尝试过的 canvas drawRoundRect rec
  • 如何在 Two.js 中解释外部 svg 文件

    有什么方法可以在two js 中解释带有对象标记的外部svg 文件吗 我尝试了下面的方法但是 HTML JS var mySvg document getElementById mysvg contentDocument var shape
  • Maven Dll依赖问题

    我正在开发一个基于 swing 的桌面应用程序 该应用程序使用 MediaInfo dll 库 我首先像描述的那样将此 dll 安装到我的本地存储库这个答案 https stackoverflow com questions 1001774
  • java中导入语句的顺序[关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 想知道 哪种是订购导入声明的正确方法 另外哪个具有更高的可读性 like 外部课程 如java util List 然后是内部包类 仅按字母顺序
  • Tensorflow 中 sess.run([op1, op2...]) 的顺序

    我想知道 sess run ops list 中操作列表的运行顺序是什么 例如 对于典型的分类场景 loss sess run train op loss op if train op先运行 那么损失就是当前反向传播之后的损失 但如果los
  • Python,导入错误:未定义的符号:g_utf8_skip

    StackOverflow 上大约有几十个类似的问题 但经过几个小时的潜伏 我终于放弃了 所以我正在尝试为Python编写一个C扩展 我们就这样称呼它吧mylib 这是头文件 mylib h ifndef mylib H define my
  • 如何使用 JSqlParser 添加新条件?

    我想向我的 sql 添加新条件 例如如果查询是 SELECT EMP ID FIRST NAME FROM EMPLOYEES 我可以使用此代码添加新的原因 Override protected void setLimit final Pl
  • 通过应用自定义 css 类禁用 html 输入元素

    我想通过应用我的自定义 css 类来禁用 div 的所有输入元素 但我找不到任何可以禁用输入元素的 css 属性 目前我在做什么 div sercvice detail input attr disabled true retention
  • 找不到 Webpackject.preload.js 文件[重复]

    这个问题在这里已经有答案了 我将 Vue Typescript 与 webpack 结合使用 每次我打开页面inject preload js抛出一个错误 例如GET blob http URL 1fbc0606 8477 416b a45
  • Javascript 闭包和内存问题

    Following function add new table entry to table and return interface which has function which uses closure to access and
  • 什么是 .inc 以及为什么使用它?

    我经常在 PHP 中看到包含 inc 文件的示例 inc 是什么意思 它是用来做什么的 使用它有什么缺点和优点 它没有任何意义 只是一个文件扩展名 如果该文件被设计为被其他 PHP 文件包含 则某些人习惯用 inc 扩展名命名该文件 但这只
  • Nuxt3生成类型错误:无法读取null的属性(读取'isCE')

    我在我的应用程序中使用 Nuxt3 Vite Leaflet Bootstrap 该应用程序在开发中运行良好 但是当我尝试使用生成静态站点时npm run generate 我收到以下错误 类型错误 无法读取 null 的属性 读取 isC
  • 通过 python 使用 Google Drive API V3 获取 Google Drive 文件所有者电子邮件地址

    我无法通过 Google Drive API v3 获取 Google 云端硬盘上文件的所有者 我可以在 v2 下做到这一点 但事情已经改变了 根据文档 https developers google com drive api v3 re
  • 在Android Studio中使用自定义框架库(android.jar)

    我有自己的定制框架 android jar 并想在 Android Studio 中使用它 我的 build gradle 中有如下描述 dependencies compile files myandroid jar 但Android S
  • 如何将material-ui时间选择器更改为24小时格式

    目前使用的是Timepicker来自材料用户界面 我已将其设置为type time 它允许我通过 AM PM 选项选择一天中 12 小时内的时间 我希望我的选择器采用 24 小时格式 从而删除 AM PM 选项 我查看了material u
  • 为什么变量在更改其因变量后没有更新? [复制]

    这个问题在这里已经有答案了 我不明白为什么当我更改 x 时变量 y 不更新 y 变量依赖于 x 对吧 x 5 y x 2 print x print y x 3 Expect it to print 3 and 6 instead it p
  • 我可以在 robots.txt 中使用“Host”指令吗?

    Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c