Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
是否可以通过robots.txt控制抓取速度?
我们可以在 robots txt 中告诉机器人抓取或不抓取我们的网站 另一方面 我们可以控制Google Webmasters中的抓取速度 Google bot抓取网站的速度 我想知道是否可以通过robots txt限制爬虫活动 我的意思是
searchengine
robotstxt
googlecrawlers
Ruby on Rails robots.txt 文件夹
我即将启动 Ruby on Rails 应用程序 作为最后一个任务 我想设置机器人 txt文件 我找不到有关如何为 Rails 应用程序正确编写路径的信息 起始路径是否始终是 Ruby on Rails 应用程序或应用程序文件夹的根路径 那
rubyonrails
robotstxt
尽管文件可访问,但“Lighthouse 无法下载 robots.txt 文件”
我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
nodejs
robotstxt
contentsecuritypolicy
Nextjs
Lighthouse
如何设置Robots.txt或Apache仅在特定时间允许爬虫?
由于 24 小时内流量分布不均匀 我希望在高峰时段禁止爬虫 在非繁忙时段允许爬虫 有没有一种方法可以实现这一目标 编辑 感谢所有的好建议 这是我们找到的另一个解决方案 2bits com 有一篇关于设置 IPTables 防火墙以限制来自某
apache
webcrawler
robotstxt
iptables
具有大量动态子域的站点的站点地图
我正在运行一个允许用户创建子域的网站 我想通过站点地图将这些用户子域提交给搜索引擎 但是 根据站点地图协议 和 Google 网站管理员工具 单个站点地图只能包含来自单个主机的 URL 最好的方法是什么 目前我有以下结构 站点地图索引位于
searchengine
SiteMap
robotstxt
googlesearchconsole
为什么 Chrome 要求 robots.txt?
我在日志中注意到 Chrome 请求了robots txt和我所期望的一切一样 2017 09 17 15 22 35 sanic INFO Goin Fast http 0 0 0 0 8080 2017 09 17 15 22 35 s
Googlechrome
chromium
robotstxt
禁止在 robots.txt 中使用动态 URL
我们的网址是 http example com kitchen knife collection maitre universal cutting boards rana parsley chopper cheese slicer vege
robotstxt
BOT/蜘蛛陷阱创意
我有一个客户 他的域名似乎受到 DDoS 攻击的严重打击 在日志中 看起来很正常的具有随机 IP 的用户代理 但它们翻阅页面的速度太快 不像人类 他们似乎也没有要求任何图像 我似乎找不到任何模式 我怀疑这是一群 Windows 僵尸 客户过
php
webcrawler
bots
robotstxt
zombieprocess
robots.txt htaccess 阻止谷歌
在我的 htaccess 文件中 我有
htaccess
searchengine
robotstxt
Robots.txt - 多个用户代理的抓取延迟的正确格式是什么?
下面是一个示例机器人 txt文件允许多个用户代理 with 多次抓取延迟对于每个用户代理 抓取延迟值仅供说明之用 在真实的 robots txt 文件中会有所不同 我在整个网络上搜索了正确的答案 但找不到 有太多混合的建议 我不知道哪个是正
format
webcrawler
robotstxt
agents
Robots.txt 类别 URL 限制
我无法找到有关我的案件的信息 我想限制以下类型的 URL 被编入索引 website com video title video title 我的网站生成我的视频文章的双 URL 副本 每篇视频文章的 URL 开头均以 视频 一词开头 所以
URL
robotstxt
Django 应用程序中 robots.txt 的推荐指令是什么?
目前我的 Django 项目具有以下结构 app1 app2 django project manage py media static secret stuff and my robots txt看起来像这样 User agent All
python
django
robotstxt
任何人都可以获得任何 C# 代码来解析 robots.txt 并根据它评估 URL
简短的问题 有没有人有任何 C 代码来解析 robots txt 然后根据它评估 URL 看看它们是否会被排除 长问题 我一直在为尚未发布到谷歌的新网站创建站点地图 站点地图有两种模式 用户模式 如传统站点地图 和 管理 模式 管理模式将显
c
robotstxt
我可以在 robots.txt 中使用“Host”指令吗?
Searching for specific information on the robots txt I stumbled upon a Yandex help page http help yandex com webmaster c
SEO
robotstxt
Googlebots 忽略 robots.txt? [关闭]
Closed 这个问题是无关 help closed questions 目前不接受答案 我有一个网站 根目录中有以下 robots txt User agent Disabled User agent Googlebot Disabled
robotstxt
googlebot
Scrapy 和 robots.txt 的尊重
我昨天发现Scrapy默认尊重robots txt文件 ROBOTSTXT OBEY True 如果我请求一个 URLscrapy shell url 如果我有回应 是否意味着url不受robots txt保护 根据文档 只有当您使用创建项
Scrapy
robotstxt
robots.txt 只允许root,禁止其他一切?
我似乎无法让它发挥作用 但它似乎非常基本 我想要抓取域根 http www example com 但没有其他可爬行的内容 并且所有子目录都是动态的 http www example com I tried User agent Allow
robotstxt
如何使用 React 和 Firebase 托管在 SPA 上提供 robots.txt?
我有一个使用 SPA 构建的create react app并希望有一个像这样的 robots txt http example com robots txt 我看到这一页 https github com ReactTraining re
ReactJS
firebase
singlepageapplication
robotstxt
createreactapp
禁止网站上的机器人[关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我的网站经常宕机 因为蜘蛛正在访问许多资源 这是主持人告诉我的 他们告诉我禁止这些 IP 地址 46 229 164 98 46 229
bots
robotstxt
webcrawler
这个 robots.txt 是否只允许 googlebot 为我的网站建立索引?
此 robots txt 文件是否只允许 googlebot 索引我网站的 index php 文件 注意 我有一个 htaccess 重定向 输入的人 http www example com index php 被重定向到简单的 htt
htaccess
robotstxt
1
2
»