用于检查大网址列表中损坏链接的 Python 工具

2024-03-05

我有一个正在生产的搜索引擎，为大约 700 000 个网址提供服务。爬行是使用 Scrapy 完成的，所有蜘蛛程序都使用 DeltaFetch 进行调度，以便获取每日新链接。

我面临的困难是处理损坏的链接。

我很难找到一种定期扫描和删除损坏链接的好方法。我正在考虑一些解决方案：

使用 requests.get 开发 python 脚本，检查每个 URL，并删除任何返回 404 状态的内容。
使用第三方工具，例如https://github.com/linkchecker/linkchecker https://github.com/linkchecker/linkchecker，但不确定这是否是最好的解决方案，因为我只需要检查网址列表，而不是网站。
使用 scrapy 蜘蛛抓取此 url 列表，并返回任何出错的 url。我对此不太有信心，因为我知道 scrapy 在扫描不同域上的大量 url 时往往会超时，这就是我如此依赖 deltafetch 的原因

您有解决此问题的建议/最佳实践吗？

多谢。

编辑：我忘了给出一个精度：我正在寻找“验证”这 700k 网址，而不是抓取它们。实际上，这 70 万个 URL 是大约 250 万个域名的爬行结果。

您可以编写一个小脚本来检查返回的 http 状态，如下所示：

for url in urls:
    try:
        urllib2.urlopen(url)
    except urllib2.HTTPError, e:
        # Do something when request fails
        print e.code

这与你的第一点相同。您还可以运行此异步，以优化运行 700k 链接所需的时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

用于检查大网址列表中损坏链接的 Python 工具的相关文章

具有多个输入的kerasvalidation_data

我尝试使用validation data方法但是有问题 model fit X macd train X rsi train X ema train Y train sample weight sample weight validati
当默认 pip 为 pip2 时，升级 pip3 的正确格式是什么？

我为两者开发Python 2 and 3 因此我必须同时使用pip2 and pip3 使用时pip3 我收到此升级请求最后两行 pip3 install arrow Requirement already satisfied use
如何让Python的socket服务器永远运行

我有这段代码创建了一个简单的Python套接字服务器但是每次客户端断开连接时它都会关闭如何让它永远运行 import socket HOST PORT 8000 s socket socket socket AF INET socket
顶级棉花糖模式验证

From 棉花糖 validation http marshmallow readthedocs org en latest quickstart html validation 我知道我可以在架构中的特定字段上注册验证器如果验证器失败
合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
Bottle 是否可以处理没有并发的请求？

起初我认为 Bottle 会并发处理请求所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节

随机推荐

将 Data.Constraint.Forall 与等式约束一起使用

假设我有一个这样的函数 LANGUAGE ScopedTypeVariables class C a where foo forall f a b C f a C f b gt f a gt f b foo 现在如果我想移动范围a and
用于 Web 服务的 SOAP 还是 REST？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 REST 是一种更好的 Web 服务方法还是 SOAP 或者它们是针对不同问题的不同工具吗或者这是一个微妙的问题也就是说一个在某些领域比另
Appfabric WF4-WCF服务，如何在没有httpcontext的情况下检索codeactivity中的当前url？

我开发了一个带有代码活动的 wf wcf 服务我想在其中检索该服务的当前 URL 如果我禁用 appfabric 的持久性功能我可以使用以下命令检索 URL HttpContext Current Request Url ToStrin
Swift - 协议作为按钮操作的目标类型

我正在尝试创建 HeaderView 它是 UIView 的子类它包含一个关闭按钮和一个标题标签 class HeaderView UIView private var titleLabel UILabel private var clo
无法将 _InternalLinkedHashMap 转换为任何内容

尽管我首先将其作为地图上传但从 Firebase RealtimeDatabase 获取数据作为地图时遇到了一些问题我看到的所有解决方案都是您应该将 snapshot value 转换为传入的数据类型但对我来说没有任何迭代我已经可以
如何将 MongoDB 与 Solr 集成？

我以前见过这个问题但从未收到真正的答案所以我想知道有人可以指出我如何将 mongoDB 与 Solr 集成的正确方向吗我正在寻找伪实时和最终的一致性做过这件事的人可以透露一些信息吗如果有帮助的话我还将 PHP Zend 与 D
如何使用 Rails 2.1 和 MySQL 定义 BigInt 主键？

从 Rails 2 1 开始如果您在迁移中定义一个新列其类型设置为 integer 且 limit 设置为 5 或更多则在 MySQL 数据库中实际创建的列将是 BigInt 类型那很完美但我不知道如何创建具有 BigInt 主键
高级错误处理

我最近摆了个姿势这个问题 https stackoverflow com questions 15295004 disregarding simple warnings errors in trycatch noredirect 1 com
使用 Java 为 Blogger API 验证自己的 Google 帐户

我想编写一个将本地文件发布到 Google Blogger 的机器人我将是唯一使用此应用程序的人因此我不需要设置用户友好的身份验证例程我花了一个晚上尝试进行设置但仍然在处理 OAuth 请求方面遇到困难我创建了一个新的 Googl
现代 OpenGL 相当于 glBegin/glEnd 的是什么

我正在为 OpenGL 构建一个图形 API 它基于基本的调用绘制图形样式基本上不是将数据存储到 GPU 中并使用它的句柄调用它而是提供信息来绘制每次更新应该绘制的内容我知道它很慢但它很简单而且适用于非性能关键型应用程序无论
正则表达式：如何匹配不仅仅是数字的字符串

是否可以编写一个正则表达式来匹配所有不匹配的字符串only包含数字如果我们有这些字符串 abc a4c 4bc ab4 123 它应该匹配第一个但不是最后一个我尝试在 RegexBuddy 中摆弄前瞻之类的东西但我似乎无法弄清楚 d
如何在关系数据库中建模多语言实体

如果我们要开发一个多语言应用程序我们应该将翻译存储在资源文件 or the database 假设我们选择在数据库中进行是否有一种标准方法来建模多语言实体关系模型 1 一张大翻译表我们可以将所有翻译存储在一张表中并使用语言中立键为属性
Flexbox行：不根据内容增长？ [复制]

这个问题在这里已经有答案了我有以下结构我想了解为什么我的行不随其内部内容增长 row border solid red display flex flex direction row cell border solid green fl
在 Maps API 浏览器上设置 HTTP Referrer 会导致 403 错误

我对 HTTP Referrer 设置如何在 Google Maps API 浏览器密钥上工作感到困惑我正在构建一个网页以编程方式从 Google 地图请求图像主要是 Google 地图街景图像 API 但也从 Javascript
spring-boot-starter-web 和 spring-boot-starter-webflux 不能一起工作吗？

当我开始学习spring webflux 我对这个组件有疑问我建立了一个简单的项目使用maven来管理它我添加了相关的依赖项spring boot starter web and spring boot starter webflux
Rufus 调度程序未登录生产环境

我的 Rails 应用程序在初始化程序中使用 rufus scheduler 启动一个进程这是初始化程序代码的精简版本 config logger isn t available here so we have to grab it fr
React 将 JQuery 代码应用于组件内的元素

我有一个正在使用 React 的应用程序我现在遇到一个问题我正在尝试实施bootstrap 所见即所得 bootstrap3 所见即所得 https github com bootstrap wysiwyg bootstrap3 wys
自动删除SQS队列

有没有办法完全自动删除 SQS 队列我有一个解决方案其中服务器在启动时创建 SQS 并订阅 SNS 主题然而可能存在服务器崩溃且无法恢复的情况在这种情况下我会用另一台服务器替换该服务器该服务器会在启动时创建自己的队列现在之前
对多个区域使用 Matcher.appendReplacement()

java Matcher appendReplacement 方法带有appendTail 应该让我将源文本转换为结果文本同时替换所有出现的模式伪语言的算法类似于 while Matcher find call Matcher app
用于检查大网址列表中损坏链接的 Python 工具

我有一个正在生产的搜索引擎为大约 700 000 个网址提供服务爬行是使用 Scrapy 完成的所有蜘蛛程序都使用 DeltaFetch 进行调度以便获取每日新链接我面临的困难是处理损坏的链接我很难找到一种定期扫描和删除损坏链接

用于检查大网址列表中损坏链接的 Python 工具

用于检查大网址列表中损坏链接的 Python 工具 的相关文章

随机推荐

热门标签

用于检查大网址列表中损坏链接的 Python 工具的相关文章