robotstxt

是否可以通过robots.txt控制抓取速度？

我们可以在 robots txt 中告诉机器人抓取或不抓取我们的网站另一方面我们可以控制Google Webmasters中的抓取速度 Google bot抓取网站的速度我想知道是否可以通过robots txt限制爬虫活动我的意思是

searchengine robotstxt googlecrawlers

Ruby on Rails robots.txt 文件夹

我即将启动 Ruby on Rails 应用程序作为最后一个任务我想设置机器人 txt文件我找不到有关如何为 Rails 应用程序正确编写路径的信息起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径那

rubyonrails robotstxt

尽管文件可访问，但“Lighthouse 无法下载 robots.txt 文件”

我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob

nodejs robotstxt contentsecuritypolicy Nextjs Lighthouse

如何设置Robots.txt或Apache仅在特定时间允许爬虫？

由于 24 小时内流量分布不均匀我希望在高峰时段禁止爬虫在非繁忙时段允许爬虫有没有一种方法可以实现这一目标编辑感谢所有的好建议这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某

apache webcrawler robotstxt iptables

具有大量动态子域的站点的站点地图

我正在运行一个允许用户创建子域的网站我想通过站点地图将这些用户子域提交给搜索引擎但是根据站点地图协议和 Google 网站管理员工具单个站点地图只能包含来自单个主机的 URL 最好的方法是什么目前我有以下结构站点地图索引位于

searchengine SiteMap robotstxt googlesearchconsole

为什么 Chrome 要求 robots.txt？

我在日志中注意到 Chrome 请求了robots txt和我所期望的一切一样 2017 09 17 15 22 35 sanic INFO Goin Fast http 0 0 0 0 8080 2017 09 17 15 22 35 s

Googlechrome chromium robotstxt

禁止在 robots.txt 中使用动态 URL

我们的网址是 http example com kitchen knife collection maitre universal cutting boards rana parsley chopper cheese slicer vege

robotstxt

BOT/蜘蛛陷阱创意

我有一个客户他的域名似乎受到 DDoS 攻击的严重打击在日志中看起来很正常的具有随机 IP 的用户代理但它们翻阅页面的速度太快不像人类他们似乎也没有要求任何图像我似乎找不到任何模式我怀疑这是一群 Windows 僵尸客户过

php webcrawler bots robotstxt zombieprocess

robots.txt htaccess 阻止谷歌

在我的 htaccess 文件中我有

htaccess searchengine robotstxt

Robots.txt - 多个用户代理的抓取延迟的正确格式是什么？

下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理抓取延迟值仅供说明之用在真实的 robots txt 文件中会有所不同我在整个网络上搜索了正确的答案但找不到有太多混合的建议我不知道哪个是正

format webcrawler robotstxt agents

Robots.txt 类别 URL 限制

我无法找到有关我的案件的信息我想限制以下类型的 URL 被编入索引 website com video title video title 我的网站生成我的视频文章的双 URL 副本每篇视频文章的 URL 开头均以视频一词开头所以

URL robotstxt

Django 应用程序中 robots.txt 的推荐指令是什么？

目前我的 Django 项目具有以下结构 app1 app2 django project manage py media static secret stuff and my robots txt看起来像这样 User agent All

python django robotstxt

任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL

简短的问题有没有人有任何 C 代码来解析 robots txt 然后根据它评估 URL 看看它们是否会被排除长问题我一直在为尚未发布到谷歌的新网站创建站点地图站点地图有两种模式用户模式如传统站点地图和管理模式管理模式将显

c robotstxt

我可以在 robots.txt 中使用“Host”指令吗？

Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c

SEO robotstxt

Googlebots 忽略 robots.txt？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一个网站根目录中有以下 robots txt User agent Disabled User agent Googlebot Disabled

robotstxt googlebot

Scrapy 和 robots.txt 的尊重

我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应是否意味着url不受robots txt保护根据文档只有当您使用创建项

Scrapy robotstxt

robots.txt 只允许root，禁止其他一切？

我似乎无法让它发挥作用但它似乎非常基本我想要抓取域根 http www example com 但没有其他可爬行的内容并且所有子目录都是动态的 http www example com I tried User agent Allow

robotstxt

如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt？

我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re

ReactJS firebase singlepageapplication robotstxt createreactapp

禁止网站上的机器人[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的网站经常宕机因为蜘蛛正在访问许多资源这是主持人告诉我的他们告诉我禁止这些 IP 地址 46 229 164 98 46 229

bots robotstxt webcrawler

这个 robots.txt 是否只允许 googlebot 为我的网站建立索引？

此 robots txt 文件是否只允许 googlebot 索引我网站的 index php 文件注意我有一个 htaccess 重定向输入的人 http www example com index php 被重定向到简单的 htt

htaccess robotstxt