我可以在 robots.txt 中使用“Host”指令吗？

2024-01-27

Searching for specific information on the robots.txt, I stumbled upon a Yandex help page http://help.yandex.com/webmaster/controlling-robot/robots-txt.xml#host^‡ on this topic. It suggests that I could use the Host directive to tell crawlers my preferred mirror domain:

User-Agent: *
Disallow: /dir/
Host: www.example.com

另外，维基百科文章 https://en.wikipedia.org/wiki/Robots_exclusion_standard#Host表示谷歌也了解Host指令，但没有太多（即骨头）信息。

At robotstxt.org http://www.robotstxt.org/，我没有找到任何东西Host (or Crawl-delay如维基百科所述）。

是否鼓励使用Host根本有指令吗？
谷歌有这方面的资源吗robots.txt具体的？
与其他爬虫的兼容性如何？

^‡ At least since the beginning of 2021, the linked entry does not deal with the directive in question any longer.

The 原始 robots.txt 规范 http://www.robotstxt.org/orig.html#format says:

无法识别的标头将被忽略。

他们称之为“标头”，但这个术语在任何地方都没有定义。但正如在有关格式的部分以及同一段落中提到的User-agent and Disallow，似乎可以安全地假设“标题”意味着“字段名称”。

所以是的，你可以使用Host or any其他字段名称。

支持这些字段的 Robots.txt 解析器，嗯，支持它们。
不支持此类字段的 Robots.txt 解析器必须忽略它们。

但请记住：由于 robots.txt 项目未指定它们，因此您无法确定不同的解析器以相同的方式支持该字段。所以你必须手动检查每个支持的解析器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SEO

robotstxt

我可以在 robots.txt 中使用“Host”指令吗？的相关文章

Safari 添加尾部斜杠

我有一个 ASP NET 网站它使用 URLRewrite 2 删除 URL 中的尾部斜杠我们注意到 Mac 上的 Safari 不遵守此规则它始终在 URL 中留下尾部斜杠 SEO Moz 显示两个 URL 这似乎是潜在的重复内容问
.htaccess 单页301重定向

网站重新设计后我有几个页面需要重定向所有内容都保留在同一个域中只有一些内容被重新组织和或重命名它们的形式如下 contact php is now 联系我们 php 使用 htaccess 文件我添加了这一行这是我最推荐的一行
PhantomJS 是否支持 ES6 来为爬虫和机器人提供 angularjs 应用程序？

我正在尝试使用ajax seo https github com liuwenchao ajax seo让 Angularjs 应用程序从 PhantomJS 网络服务器提供 html 编译内容但它没有呈现完整的页面它只是给出以下响应
我可以在 Struts 中提供 SEO 友好的 url 吗？

我想在我的应用程序中拥有 SEO 友好的 url 它将使用 Struts 1 2 在 java j2ee 中构建我有一些分类如下 county countryname county state statename county state
.htaccess RewriteRule 不起作用，需要生成一个友好的 URL

我有这个动态链接 http www nortedigital mx article php id 36175 t dobla las manos el snte avala reforma educativa 我需要像这样进行 URL 友好
Robots.txt - 多个用户代理的抓取延迟的正确格式是什么？

下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理抓取延迟值仅供说明之用在真实的 robots txt 文件中会有所不同我在整个网络上搜索了正确的答案但找不到有太多混合的建议我不知道哪个是正
Google 未显示 React-Helmet 标题和描述

我使用react helmet 为我的React 应用程序的每个页面提供唯一的标题和描述当我使用开发工具检查页面时标题在浏览器选项卡中正确呈现标题和描述也正确呈现然而谷歌并没有在搜索结果中显示标题或描述我究竟做错了什么我研究过
我可以在 schema.org 丰富摘要的 Span 标记中使用多个 ItemProps 吗？

假设我想向以下句子添加丰富的摘要我在纽约生活和工作由于纽约既是我的居住地也是我工作的城市理论上我希望使用 schema org 标准来标记该行 div I live and work in span New York span di
SEO 的查询字符串参数名称

如果我有一个像这样的网站 google com index html c 123123 p shoes 对于 SEO 来说将其设置为 google com index html code 123123 footwear shoes 我的意
为什么 Chrome 要求 robots.txt？

我在日志中注意到 Chrome 请求了robots txt和我所期望的一切一样 2017 09 17 15 22 35 sanic INFO Goin Fast http 0 0 0 0 8080 2017 09 17 15 22 35 s
限制 Wordpress 中现有和新的永久链接 slugs 的大小以进行 SEO

我在 Google 上读到一篇文章其中提到为了良好的 SEO 最好将 URL 中的 slug 大小限制为 5 个单词当我使用 WordPress 时链接会自动分配给文章标题要仅用 5 个字重做所有链接我必须花费数月时间来编辑博客上
AngularJS 会影响 SEO 吗？

我正在使用 Angular JS 开发一个网站现在我正处于其中突然有一个问题这是否会影响搜索引擎爬虫寻找解决方案据我们所知截至今天Google 可以处理由 JavaScript 驱动的内容 http googlewebmaster
多语言网站 SEO：无需更改 URL 即可获得特定于语言的结果？

我有一个有两种语言的网站英语和瑞典语我想要的是如果有人用谷歌搜索瑞典的网站它应该显示瑞典语的结果也就是说我希望瑞典的 Google google se 抓取该网站的瑞典语版本对于任何其他地方我希望抓取英文版本我读了以下内容
CakePHP 分页 - 如何从 url 中删除“page:”以获得更好的 seo/更干净的 URL

当我使用 CakePHP Paging 时我得到一个像这样的 url http example com php page 2 我必须在控制器视图和routes php中更改什么才能创建这样的工作网址 http example com p
将 >100K 页面链接在一起而不会受到 SEO 惩罚

我正在创建一个网站该网站将审查互联网上数十万个其他网站的隐私政策它的最初内容是基于我的运行普通爬行 http commoncrawl org 50 亿页网络转储和分析所有隐私政策 https stackoverflow com ques
我网站的 CSS 何时会影响我的搜索引擎排名？

起初我认为 css 绝对没有什么用处只是当用户在浏览器中查看文档时设计文档样式但后来我意识到搜索引擎也在索引页面中使用CSS 搜索引擎不会将内容编入索引display hidden我相信并且严厉惩罚使用关键字堆叠的网站用户从未见过的
seo - 图像和 h1

我遇到一种情况我想坚持使用我的徽标而不是 h1 标签的实际文本如果我将关键字放在 alt 标签中而不是实际编写我会在 SEO 上受到影响吗文本和图像同时存在更好吗想法 div h1 a href img src logo jpg
谷歌会索引带有隐藏div的页面吗？

我开始重新设计和开发一个包含大量文本的网站并且我正在考虑如何组织网站上的信息使其看起来更干净在网站的某些部分我想实现一个 jquery 切换效果其中某些内容放置在隐藏的 div 中并且该内容将根据用户的 onclick 事件显示
阻止搜索引擎抓取目录

我的网站有这样的 URL 最长结构 http www example com xyz pqr abcd efgh 123 html http www example com xyz pqr abcd efgh 123 html 因此最多有
谷歌如何知道你正在伪装？

我似乎找不到任何有关谷歌如何确定您是否是的信息你的内容从技术角度来看您认为他们是如何确定这一点的他们是否发送了 googlebot 之外的其他内容并将其与 googlebot 结果进行比较他们有人类团队进行比较吗或者他们可以以某种

随机推荐

如何使用ggplot2将x轴从年更改为月

我有一个随时间变化的网络访问量图表其中绘制了从 2014 年至今的每日流量如下所示 ggplot subset APRA Post Day gt 2013 12 31 aes x Post Day y Page Views geom l
php从同一浏览器和同一php脚本同时下载文件

你好我有这个简单的代码强制随机文件下载我的问题是如果我从同一个浏览器调用脚本两次或多次第二次下载将不会开始直到第一次完成或中断因此我每次只能下载一个文件你有什么线索吗这可能与PHP的会话处理有关使用默认的会话处
Chrome 中的窗口高度错误

我正在尝试获取 Chrome 浏览器窗口的正确宽度和高度 Firefox 中的大小是正确的我没有尝试过任何其他浏览器我已将文档类型设置为 DOCTYPE html并尝试过 window height window width windo
在自定义活动中绘制 TextView？

我正在实施一个自定义View 我需要在其中绘制一些文本文本必须适合一个盒子所以我必须将其分解并使其适合因此我想我可以使用TextView并在我的自定义中绘制它View 这是我尝试过的 canvas drawRoundRect rec
如何在 Two.js 中解释外部 svg 文件

有什么方法可以在two js 中解释带有对象标记的外部svg 文件吗我尝试了下面的方法但是 HTML JS var mySvg document getElementById mysvg contentDocument var shape
Maven Dll依赖问题

我正在开发一个基于 swing 的桌面应用程序该应用程序使用 MediaInfo dll 库我首先像描述的那样将此 dll 安装到我的本地存储库这个答案 https stackoverflow com questions 1001774
java中导入语句的顺序[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案想知道哪种是订购导入声明的正确方法另外哪个具有更高的可读性 like 外部课程如java util List 然后是内部包类仅按字母顺序
Tensorflow 中 sess.run([op1, op2...]) 的顺序

我想知道 sess run ops list 中操作列表的运行顺序是什么例如对于典型的分类场景 loss sess run train op loss op if train op先运行那么损失就是当前反向传播之后的损失但如果los
Python，导入错误：未定义的符号：g_utf8_skip

StackOverflow 上大约有几十个类似的问题但经过几个小时的潜伏我终于放弃了所以我正在尝试为Python编写一个C扩展我们就这样称呼它吧mylib 这是头文件 mylib h ifndef mylib H define my
如何使用 JSqlParser 添加新条件？

我想向我的 sql 添加新条件例如如果查询是 SELECT EMP ID FIRST NAME FROM EMPLOYEES 我可以使用此代码添加新的原因 Override protected void setLimit final Pl
通过应用自定义 css 类禁用 html 输入元素

我想通过应用我的自定义 css 类来禁用 div 的所有输入元素但我找不到任何可以禁用输入元素的 css 属性目前我在做什么 div sercvice detail input attr disabled true retention
找不到 Webpackject.preload.js 文件[重复]

这个问题在这里已经有答案了我将 Vue Typescript 与 webpack 结合使用每次我打开页面inject preload js抛出一个错误例如GET blob http URL 1fbc0606 8477 416b a45
Javascript 闭包和内存问题

Following function add new table entry to table and return interface which has function which uses closure to access and
什么是 .inc 以及为什么使用它？

我经常在 PHP 中看到包含 inc 文件的示例 inc 是什么意思它是用来做什么的使用它有什么缺点和优点它没有任何意义只是一个文件扩展名如果该文件被设计为被其他 PHP 文件包含则某些人习惯用 inc 扩展名命名该文件但这只
Nuxt3生成类型错误：无法读取null的属性（读取'isCE'）

我在我的应用程序中使用 Nuxt3 Vite Leaflet Bootstrap 该应用程序在开发中运行良好但是当我尝试使用生成静态站点时npm run generate 我收到以下错误类型错误无法读取 null 的属性读取 isC
通过 python 使用 Google Drive API V3 获取 Google Drive 文件所有者电子邮件地址

我无法通过 Google Drive API v3 获取 Google 云端硬盘上文件的所有者我可以在 v2 下做到这一点但事情已经改变了根据文档 https developers google com drive api v3 re
在Android Studio中使用自定义框架库（android.jar）

我有自己的定制框架 android jar 并想在 Android Studio 中使用它我的 build gradle 中有如下描述 dependencies compile files myandroid jar 但Android S
如何将material-ui时间选择器更改为24小时格式

目前使用的是Timepicker来自材料用户界面我已将其设置为type time 它允许我通过 AM PM 选项选择一天中 12 小时内的时间我希望我的选择器采用 24 小时格式从而删除 AM PM 选项我查看了material u
为什么变量在更改其因变量后没有更新？ [复制]

这个问题在这里已经有答案了我不明白为什么当我更改 x 时变量 y 不更新 y 变量依赖于 x 对吧 x 5 y x 2 print x print y x 3 Expect it to print 3 and 6 instead it p
我可以在 robots.txt 中使用“Host”指令吗？

Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c

我可以在 robots.txt 中使用“Host”指令吗？

我可以在 robots.txt 中使用“Host”指令吗？ 的相关文章

随机推荐

热门标签

我可以在 robots.txt 中使用“Host”指令吗？的相关文章