网络爬虫的典型礼貌因素？

2024-01-08

网络爬虫的典型礼貌因素是什么？

除了始终遵守robot.txt
“禁止：”和非标准“抓取延迟：”

但是，如果站点没有指定显式的抓取延迟，则默认值应该设置为多少？

我们使用的算法是：

// If we are blocked by robots.txt
// Make sure it is obeyed.
// Our bots user-agent string contains a link to a html page explaining this.
// Also an email address to be added to so that we never even consider their domain in the future

// If we receive more that 5 consecutive responses with HTTP response code of 500+ (or timeouts)
// Then we assume the domain is either under heavy load and does not need us adding to it.
// Or the URL we are crawling are completely wrong and causing problems
// Wither way we suspend crawling from this domain for 4 hours.

// There is a non-standard parameter in robots.txt that defines a min crawl delay
// If it exists then obey it.
//
//    see: http://www.searchtools.com/robots/robots-txt-elements.html
double PolitenssFromRobotsTxt = getRobotPolitness();


// Work Size politeness
// Large popular domains are designed to handle load so we can use a
// smaller delay on these sites then for smaller domains (thus smaller domains hosted by
// mom and pops by the family PC under the desk in the office are crawled slowly).
//
// But the max delay here is 5 seconds:
//
//    domainSize => Range 0 -> 10
//
double workSizeTime = std::min(exp(2.52166863221 + -0.530185027289 * log(domainSize)), 5);
//
// You can find out how important we think your site is here:
//      http://www.opensiteexplorer.org
// Look at the Domain Authority and diveide by 10.
// Note: This is not exactly the number we use but the two numbers are highly corelated
//       Thus it will usually give you a fair indication.



// Take into account the response time of the last request.
// If the server is under heavy load and taking a long time to respond
// then we slow down the requests. Note time-outs are handled above
double responseTime = pow(0.203137637588 + 0.724386103344 * lastResponseTime, 2);

// Use the slower of the calculated times
double result = std::max(workSizeTime, responseTime);

//Never faster than the crawl-delay directive
result = std::max(result, PolitenssFromRobotsTxt);


// Set a minimum delays
// So never hit a site more than every 10th of a second
result = std::max(result, 0.1);

// The maximum delay we have is every 2 minutes.
result = std::min(result, 120.0)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webcrawler

websiteadmin

网络爬虫的典型礼貌因素？的相关文章

网络爬虫的典型礼貌因素？

网络爬虫的典型礼貌因素是什么除了始终遵守robot txt 禁止和非标准抓取延迟但是如果站点没有指定显式的抓取延迟则默认值应该设置为多少我们使用的算法是 If we are blocked by robots txt Make
有没有办法在 Puppeteer for Firefox 中使用代理？

有没有办法将 Puppeteer 配置为在 Firefox 中使用代理而无需手动调整操作系统的代理设置我可以通过使用命令行参数在 Chrome 中完成此操作args proxy server http 0 0 0 0 0000 但是Fi
.net 4.0 中并行网络爬虫的最佳实践

我需要通过代理下载很多页面构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好还是对于繁重的 CPU 任务更好您对以下代码有何看法 var multyProxy new MultyProxy mul
在 Python 中迭代并从 Web 中提取表并保存为 Excel 文件

我想迭代并从链接中提取表here http zjj sz gov cn ztfw gcjs xmxx jgysba 然后另存为excel文件我怎样才能做到这一点谢谢到目前为止我的代码 import pandas as pd impor
如何编写爬虫？

我曾想过尝试编写一个简单的爬虫程序它可以爬行并为我们的 NPO 网站和内容生成其发现结果列表有人对如何做到这一点有任何想法吗您将爬虫指向何处开始它如何发回其发现并仍然继续爬行它如何知道它发现了什么等等可以肯定的是你将重新发明轮
在缓存中找不到元素 - 也许页面自从在 Selenium Ruby Web 驱动程序中查找后已发生更改？

我正在尝试编写一个爬虫它可以从加载的页面中爬取所有链接并在某个文件例如 XML 或 txt 中记录所有请求和响应标头以及响应正文我正在新浏览器窗口中打开第一个加载页面的所有链接因此不会出现此错误 Element not found
Scrapy 在爬行几页后停止爬行

我刚刚学习了 Scrapy 和网站爬虫的基础知识所以我非常感谢您的意见我在教程的指导下从 Scrapy 构建了一个简单明了的爬虫它工作正常但不会按应有的方式抓取所有页面我的蜘蛛代码是 from scrapy spider imp
使用 Python 请求传递登录名/密码

我查看了相关答案但没有找到非常有效的东西我正在尝试从我的球队的 CBS Sportsline 页面上抓取一些梦幻棒球信息我想发布登录名和密码然后当我使用 get 命令时查看特定于我的帐户的数据这是我尝试过的 import req
python中html解析和网络爬行有多大区别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要从 django 网站中的网站获取一些数据现在我很困惑是否应该使用 python 解析库或网络爬行库搜索引擎库也属于同一类别
BOT/蜘蛛陷阱创意

我有一个客户他的域名似乎受到 DDoS 攻击的严重打击在日志中看起来很正常的具有随机 IP 的用户代理但它们翻阅页面的速度太快不像人类他们似乎也没有要求任何图像我似乎找不到任何模式我怀疑这是一群 Windows 僵尸客户过
使用 Jsoup 提取 Span 标签数据

我正在尝试使用 Jsoup 提取 html 中的特定内容下面是示例 html 内容 div class shop section line bmargin10 tmargin10 div class price section fksk
在 C# 中实现动态 Web Scraper 的逻辑

我希望在 C 窗口窗体中开发一个 Web scraper 我想要完成的任务如下从用户处获取 URL 在WINForms中的IE UI控件嵌入式浏览器中加载网页允许用户选择文本连续小不超过 50 个字符从加载的网页当用户希望
Scrapy 使用带有规则的 start_requests

我找不到任何使用 start requests 与规则的解决方案我也没有在互联网上看到任何关于这两个的示例我的目的很简单我想重新定义 start request 函数以获得捕获请求期间所有异常的能力并在请求中使用元这是我的蜘蛛的代
Ruby+Anemone Web Crawler：正则表达式匹配以一系列数字结尾的 URL

假设我正在尝试抓取一个网站并跳过一个像这样结束的页面我目前正在 Ruby 中使用 Anemone gem 来构建爬虫我正在使用skip links like方法但我的模式似乎永远不匹配我试图使其尽可能通用因此它不依赖于子页面而只
Symfony 2 功能测试外部 URL

无论我做什么我总能得到一个 Symfony Component HttpKernel Exception NotFoundHttpException 否已找到的路线 in crawler gt text 当我尝试使用以下命令请求外部
php将所有链接转换为绝对url

我正在用 php 编写一个网站爬虫并且我已经有了可以从网站提取所有链接的代码问题网站使用绝对 URL 和相对 URL 的组合示例 http 替换为 hxxp 因为我无法发布超链接 hxxp site com site com sit
Facebook 爬虫严重攻击我的服务器并忽略指令。多次访问相同资源

Facebook 爬虫每秒多次访问我的服务器它似乎忽略了 Expires 标头和 og ttl 属性在某些情况下它会在 1 5 分钟内多次访问同一 og image 资源在一个示例中爬虫程序在 3 分钟内使用 12 个不同的 IP
cron 爬虫使用 Ruby 中的 Google API 将数据插入 Google 电子表格的授权问题

我的项目是每天早上 9 00 抓取某些网络数据并将它们放入我的 Google 电子表格中并且它必须获得读取和写入某些内容的授权这就是为什么下面的代码位于顶部 Google API CLIENT ID blah blah CLIENT S
我们可以从 LinkPresentation 框架中的 LPLinkView 中提取图像吗？

我想在我的应用程序中呈现丰富的链接并将这些数据发送到我的服务器我需要访问视图内的图像LPLinkView https developer apple com documentation linkpresentation lplinkvi
使用 puppeteer 获取完整的网页源 html - 但某些部分总是丢失

我正在尝试抓取下面网页上的特定字符串 https www booking com hotel nl scandic sanadome nijmegen en gb html checkin 2020 09 19 checkout 2020

随机推荐

使用适用于 IE 的 Javascript 模拟单击链接

我想让 javascript 单击页面上的链接我在网上发现了一些建议添加如下功能的内容 function fireEvent obj evt var fireOnThis obj if document createEvent var e
如何检测 iframe 来源何时更改？

我想检测用户何时单击其中的链接iframe并改变来源iframe 因为我想调整它的大小我也使用 jQuery 检测这一点的最佳方法是什么实际上我需要这样的东西这个例子是在jQuery中它不起作用我想象这个 iframe live
为什么 BindingSource 不告诉我哪个属性已更改？

我正在考虑使用数据绑定最简单的事情似乎是使用 BindingSource 来包装我的数据对象然而虽然 CurrentItemChanged 事件告诉我属性何时发生更改但它并没有告诉我是哪一个属性发生更改而这是我需要的重要部分有什
动画关键帧的 scss 函数

我想做一个可重用的 sass 函数让我可以轻松编写 keyframescss 动画无需编写太多代码但我不知道如何去做尤其是数学部分我有一个包含带有此 css 的单个背景图像的 div height 100vh width 8000
与页面交互时图像质量第二次下降

当页面以任何方式移动时窗口大小调整滚动悬停用作图标的图像会重新渲染并使侧面变得粗糙它在具有透明背景和圆形边框的图像上非常明显如示例中所示有什么办法解决这个问题吗例子 img src http www iconsd
基本 Firebase 数据库保存

任何人看到下面的内容都是正确的答案并且我的所有设置都正确我仍然不知道问题是什么我用 facebook 登录用它来创建一个 firebaseuser 对象然后发送以下内容作为测试数据我发现这是一个间歇性问题从设备上卸载应用程序并
Reactjs - 控制多个复选框

我在 Reactjs 中构建了一个 CheckAllBoxes 组件我有一个物品清单 fruits orange apple grape 将军
如何在不使用“return”语句的情况下退出异步协程？

我在决定如何打破这个协程时遇到了一些麻烦如果except声明捕获通常我只会使用 def f x try foo var next a volitile generator x except Exception print it bro
如何在 Room 中动态创建新表？

请帮帮我在我的应用程序中用户可以通过按按钮创建新的数据库表用户还可以稍后访问该表以接收其中的数据目前我通过 dataBaseHelper 类利用旧的 SQLite 所以我可以 public static void createTab
如何在 Airflow 中的 PythonOperator 中登录 Python 函数

我在 Airflow DAG 中使用 PythonOperator 并且需要在操作符的 Python 函数中打印一些内容我尝试打印但显然没有成功不太确定这会起作用接下来我尝试在 PythonOperator 中传递 self log
XAML 中的属性 Duration 不允许值类型 Duration

我正在尝试使用普通的 Windows Metro 风格应用程序执行以下操作 public class MyButton Button public Duration Duration get set
元类冲突：基类和派生类具有不同的元类

class AbstractBaseClass metaclass abc ABCMeta abc abstractmethod def someMethod class DerviedClass AbstractBaseClass met
Sqlite + Java：表未更新

我正在使用 SQLite 的 Java 包装器名为SQLiteJDBC http www zentus com sqlitejdbc 这可能会对任何答案产生一些影响我有一个在 GUI 中显示的表在该 UI 中我有一个用于该表的单个行
地址可达性 - 服务器和端口 - iOS 5

我正在尝试检查服务器是否在线或离线连接到服务器时我面临一个问题即它有一个端口我现在的代码 struct sockaddr in address address sin len sizeof address address sin fa
需要帮助用delphi打印文本文件

我正在尝试使用 Delphi 2010 打印文本文件我找到了一些代码但是当我运行时它要求保存 xps 文件但不显示打印对话框代码位于http www delphipages com forum showthread php t 7
curl 可以工作，但不会在 BASH 脚本中执行

以下curl 命令在命令行中运行我从服务器得到了有效的响应 curl X POST https somebaseurl api v1 auth login H Content Type application json d email f
Jersey / ServletContext 和启动时加载资源

我是 Java Web 开发领域的新手我正在开发一个网络服务我选择了 REST Jersey for it 我想在服务启动时初始化一些东西并保留它们贯穿整个服务生命周期第一个问题构造函数是JerseyServlet 是做这件事的好
解析 Facebook logInInBackgroundWithReadPermissions (Swift)

我已成功设置 Parse 1 7 1 SDK 和 Facebook v4 SDK 设置桥接头文件和 AppDelegate swift 现在在我的 ViewController 中我正在尝试创建 Facebook 登录并且我正在尝试使用
read.csv 在 R 中警告“EOF 在引用的字符串中”，但在 EXCEL 中成功读取

我尝试读取从下载的 csv 文件here https d396qusza40orc cloudfront net repdata 2Fdata 2FStormData csv bz2 我用下面的代码阅读 storm data read cs
网络爬虫的典型礼貌因素？

网络爬虫的典型礼貌因素是什么除了始终遵守robot txt 禁止和非标准抓取延迟但是如果站点没有指定显式的抓取延迟则默认值应该设置为多少我们使用的算法是 If we are blocked by robots txt Make

网络爬虫的典型礼貌因素？

网络爬虫的典型礼貌因素？ 的相关文章

随机推荐

热门标签

网络爬虫的典型礼貌因素？的相关文章