Googlebots 忽略 robots.txt? [关闭]

2024-01-27

我有一个网站,根目录中有以下 robots.txt:

User-agent: *
Disabled: /

User-agent: Googlebot 
Disabled: /

User-agent: Googlebot-Image
Disallow: /

该网站内的页面整天都被 Googlebot 扫描。我的文件或 Google 有问题吗?


它应该是Disallow:, not Disabled:.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Googlebots 忽略 robots.txt? [关闭] 的相关文章

  • robots.txt 泄漏敏感信息

    robots txt 泄漏敏感信息 漏洞描述 搜索引擎可以通过robots文件可以获知哪些页面可以爬取 哪些页面不可以 爬取 Robots协议是网站国际互联网界通行的道德规范 其目的是保护网站数据和敏感信 息 确保用户个人信息和隐私不被侵犯
  • 通过 PHP 呈现纯文本

    出于某种原因 我想通过 PHP 脚本提供 robots txt 我已经设置了 apache 以便 robots txt 文件请求 实际上是所有文件请求 到达单个 PHP 脚本 我用来渲染 robots txt 的代码是 echo User
  • robots.txt 文件放在哪里? [关闭]

    Closed 这个问题是无关 目前不接受答案 robots txt应该放在哪里 domainname com robots txt or domainname public html robots txt 我将文件放入domainname
  • robots.txt 的正则表达式

    我正在尝试设置 robots txt 但我不确定正则表达式 我有四个不同的页面 全部以三种不同的语言提供 我想我可以使用正则表达式 而不是列出每个页面乘以 3 nav aspx page aspx changelang 可能附加一个查询字符
  • 删除 robots.txt 后是否会产生后果?

    我发布了一个网站 由于不依赖于我的误解 我不得不在索引之前阻止所有页面 其中一些页面已经链接到社交网络上 因此为了避免不良的用户体验 我决定将以下代码插入到 robots txt 中 User agent Disallow 我收到了关于网站
  • robots.txt - 这有效吗?

    我刚刚遇到了一个 robots txt 如下所示 User agent Disallow foobar User agent badbot Disallow 仅禁止所有文件夹后 具体是否badbot规则是否适用 注意 此问题仅用于理解上述规
  • 如何设置仅允许站点默认页面的robot.txt

    假设我有一个网站http example com http example com 我真的很想让机器人看到主页 但任何其他页面都需要被阻止 因为它对蜘蛛来说毫无意义 换句话说 http example com http example co
  • robots.txt URL 格式

    根据这一页 http www robotstxt org robotstxt html User agent 或 Disallow 行中不支持 globbing 和正则表达式 然而 我注意到堆栈溢出机器人 txt https stackov
  • Scrapy 和 robots.txt 的尊重

    我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应 是否意味着url不受robots txt保护 根据文档 只有当您使用创建项
  • Googlebots 忽略 robots.txt? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我有一个网站 根目录中有以下 robots txt User agent Disabled User agent Googlebot Disabled
  • 我可以在 robots.txt 中使用“Host”指令吗?

    Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c
  • 任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL

    简短的问题 有没有人有任何 C 代码来解析 robots txt 然后根据它评估 URL 看看它们是否会被排除 长问题 我一直在为尚未发布到谷歌的新网站创建站点地图 站点地图有两种模式 用户模式 如传统站点地图 和 管理 模式 管理模式将显
  • Googlebot 什么时候执行 JavaScript?

    我在多个域上有一些单页 Web 应用程序 它们严重依赖 javascript ajax 来获取和显示内容 根据日志和搜索结果 我可以看出 googlebot 在某些域上运行 javascript 但在其他域上则不运行 在某些平台上 它索引了
  • 404 错误 - Google 尝试对 ColdFusion CFC 建立索引

    几个月来 我们的 IIS ColdFusion 服务器在 Google 爬虫扫描期间一直抛出 404 错误 通常情况下很容易追踪这些文件 但在这种情况下 Google 正在尝试扫描我们的 CFC 文件 这些文件确实存在 但它们不会暴露在 I
  • Googlebot 会抓取用 JavaScript 对 DOM 所做的更改吗?

    对于 SEO 我的任务是添加一个rel nofollow 所有外部链接 最简单 最不显眼的添加方式rel nofollow 每个外部链接都带有一些 jQuery 我已经做得很好 但我现在想知道 Google 是否会看到 jQuery 文档加
  • 禁止在 robots.txt 中使用动态 URL

    我们的网址是 http example com kitchen knife collection maitre universal cutting boards rana parsley chopper cheese slicer vege
  • 具有大量动态子域的站点的站点地图

    我正在运行一个允许用户创建子域的网站 我想通过站点地图将这些用户子域提交给搜索引擎 但是 根据站点地图协议 和 Google 网站管理员工具 单个站点地图只能包含来自单个主机的 URL 最好的方法是什么 目前我有以下结构 站点地图索引位于
  • 如何设置Robots.txt或Apache仅在特定时间允许爬虫?

    由于 24 小时内流量分布不均匀 我希望在高峰时段禁止爬虫 在非繁忙时段允许爬虫 有没有一种方法可以实现这一目标 编辑 感谢所有的好建议 这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某
  • 尽管文件可访问,但“Lighthouse 无法下载 robots.txt 文件”

    我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
  • 使用“禁止:/*?”在 robots.txt 文件中

    I used Disallow 在 robots txt 文件中禁止所有可能包含 的页面在网址中 该语法是否正确 或者我是否也阻止了其他页面 这取决于机器人 遵循原始 robots txt 规范的机器人不会给出 任何特殊含义 这些机器人会阻

随机推荐