我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？

2024-04-21

因此，我有一个从数据库中提取的 URL 列表，我需要抓取并解析每个 URL 的 JSON 响应。某些 URL 返回 null，而其他 URL 返回发送到 csv 文件的信息。我目前正在使用Scrapy，但是抓取这12000个URL大约需要4个小时。我研究过类似的事情, , and frontera https://github.com/scrapinghub/frontera，但我不确定这些是否适合我的用例，因为它们似乎是围绕抓取网站上找到的 URL 进行的。

对于单台机器上抓取的如此数量的 URL，4 小时是“正常”时间吗？或者是否有任何可能更适合我的软件包，在抓取页面时没有“以下”链接？

URL 和输出彼此独立吗？您可以设置 Python 多重处理，并并行执行此操作，然后在最后合并输出。进程数量由您决定，但允许您使用机器的 1 个以上核心。

https://docs.python.org/2/library/multiprocessing.html https://docs.python.org/2/library/multiprocessing.html

另外，您是否需要加载内容，或者您可以只使用响应代码来告诉您服务器是否在该 URL 上响应等。

如果您要做大量此类工作，并且想要快速处理，Golang 对 Web 服务和并行化具有出色的支持。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？的相关文章

使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

等待 Swift 中的异步操作完成

我不知道如何处理这种情况因为我对 iOS 开发和 Swift 非常陌生我正在像这样执行数据获取 func application application UIApplication performFetchWithCompletionH
升级到 AnonymousTraversalSource (Gremlin 3.3.5+ Node.js)

我正在 Lambda Nodejs12 x 中编写代码我想更新到未弃用的连接方式 const gremlin require gremlin const DriverRemoteConnection gremlin driver Driv
Android - 在 AsyncTask 中执行后

我目前有一个asyncTask在预执行时启动一个加载栏在后台向服务器发送一些内容在执行后关闭对话框并启用一个按钮但是由于 doInBackground 返回 null 我的后执行未执行我试图弄清楚我能做些什么来让 postExec
如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？

我需要 Python dateutil 1 5parse http labix org python dateutil head a23e8ae0a661d77b89dfb3476f85b26f0b30349c使用 Unicode 月份名称
使用 Java 将包含 XML 的字符串添加到 SOAPElement

我必须将 Excel 文件中的数据作为 XML 发送到 Web 服务表中的数据看起来有点像这样请参阅此处的表格示例 https i stack imgur com NEOTi png 第一行始终包含该列数据的 XML 标记大多数数据列
从intellij-idea将代码样式格式化设置导入到eclipse中

我最近实现了将 maven Check 样式插入到我的项目中并更改了 intellij 我使用的中的所有格式化程序设置以符合此样式指南他们现在这样做不过我需要为 eclipse 生成一个设置 xml 文件以便我的同事可以自动格
ld：警告：__DATA/__objc_imageinfo__DATA 节的大小意外地大

有谁知道这个警告是什么意思接下来是错误 Command Developer Platforms iPhoneSimulator platform Developer usr bin llvm gcc 4 2 failed with exi
如何在嵌入式Linux中高效地在VFAT分区上创建大文件

我正在尝试在嵌入式 Linux 盒子中使用 dd 命令在 VFAT 分区上创建一个大的空文件 dd if dev zero of mnt flash file bs 1M count 1 seek 1023 目的是跳过前 1023 个块并在
Nginx no-www 到 www 以及 www 到 no-www

我在用按照教程在 Rackspace 云上安装 nginx http www howtoforge com running phpmyadmin on nginx lemp on debian squeeze ubuntu 11 04并在网
无法使用 Leiningen 构建 jar

我正在尝试使用 Intellij 的 Cursive 中的 Leiningen 插件从我的基本 Clojure 项目中制作一个独立的 jar 为了创建项目我刚刚创建了 project clj 文件将其打开 Cursive 提出将其导入为
Heroku SSL 与 Route53

我的 SSL 证书已全部设置完毕并准备好在 Heroku 上运行我按照这里的说明进行操作https devcenter heroku com articles route 53 https devcenter heroku com art
Python 子进程调用不能采用 grep [重复]

这个问题在这里已经有答案了 Python 子进程调用应该按原样作为命令运行但如果其中有管道它就会抱怨这是我的代码 usr bin python import sys import subprocess import time serv
如何在预构建步骤中转义美元符号

我正在与 Visual Studio 进行斗争以在预构建步骤中正确转义美元符号目标是提供一个变量名作为文字 VS 不应该尝试处理变量名 The 文档 https msdn microsoft com en us library bb38
Angular 子路由不起作用并将我重定向到同一页面

我尝试过改变我的route到目前为止我没有发现任何问题但是如果您发现任何缺陷请告诉我我也会尝试查找任何类型错误并仔细检查我的组件到目前为止我还没有找到但请再次告诉我我尝试输入我的路线 URL 它可以工作但显示的是相同的页面
使用 Jackson JsonFormat 模式自定义日期字符串

Summary 我正在尝试解析日期例如25 Sep 17因此简单日期格式 https docs oracle com javase 8 docs api java text SimpleDateFormat html注释似乎是 JsonF
将标头附加到 Rspec 控制器测试

我正在尝试为我的控制器编写测试该控制器接收来自外部服务的请求到目前为止这是我的测试 describe ApplyController do context when valid do let parameters do file Fi
在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取

好的这就是我想要实现的目标调用带有动态过滤搜索结果列表的 URL 点击第一个搜索结果 5 页抓取标题段落和图像并将它们作为 json 对象存储在单独的文件中例如 Title 单个条目的标题元素 Content 各个条目的 DOM
自定义键盘中断处理程序

我正在尝试编写一个简单的程序将标准键盘中断替换为自定义的键盘中断以减少变量但是如果不调用旧处理程序它就无法工作这是我的中断处理程序 handler proc push ax push di dec EF pushf when t
res.send 和 res.render 调用

我试图确定是否可以同时调用 res send data 和 res render reports 为了进一步详细解释当我路由到 reports 时首先在服务器端对返回 json 数据的 API 进行 REST 调用现在我希望在客户端上
我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？

因此我有一个从数据库中提取的 URL 列表我需要抓取并解析每个 URL 的 JSON 响应某些 URL 返回 null 而其他 URL 返回发送到 csv 文件的信息我目前正在使用Scrapy 但是抓取这12000个URL大约需要4

我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？

我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？ 的相关文章

随机推荐

热门标签

我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？的相关文章