我有 12000 个已知 URL,用 Python 抓取它们的最快方法是什么?

2024-04-21

因此,我有一个从数据库中提取的 URL 列表,我需要抓取并解析每个 URL 的 JSON 响应。某些 URL 返回 null,而其他 URL 返回发送到 csv 文件的信息。我目前正在使用Scrapy,但是抓取这12000个URL大约需要4个小时。我研究过类似的事情, , and frontera https://github.com/scrapinghub/frontera,但我不确定这些是否适合我的用例,因为它们似乎是围绕抓取网站上找到的 URL 进行的。

对于单台机器上抓取的如此数量的 URL,4 小时是“正常”时间吗?或者是否有任何可能更适合我的软件包,在抓取页面时没有“以下”链接?


URL 和输出彼此独立吗?您可以设置 Python 多重处理,并并行执行此操作,然后在最后合并输出。进程数量由您决定,但允许您使用机器的 1 个以上核心。

https://docs.python.org/2/library/multiprocessing.html https://docs.python.org/2/library/multiprocessing.html

另外,您是否需要加载内容,或者您​​可以只使用响应代码来告诉您服务器是否在该 URL 上响应等。

如果您要做大量此类工作,并且想要快速处理,Golang 对 Web 服务和并行化具有出色的支持。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

我有 12000 个已知 URL,用 Python 抓取它们的最快方法是什么? 的相关文章

随机推荐

  • 等待 Swift 中的异步操作完成

    我不知道如何处理这种情况 因为我对 iOS 开发和 Swift 非常陌生 我正在像这样执行数据获取 func application application UIApplication performFetchWithCompletionH
  • 升级到 AnonymousTraversalSource (Gremlin 3.3.5+ Node.js)

    我正在 Lambda Nodejs12 x 中编写代码 我想更新到未弃用的连接方式 const gremlin require gremlin const DriverRemoteConnection gremlin driver Driv
  • Android - 在 AsyncTask 中执行后

    我目前有一个asyncTask在预执行时启动一个加载栏 在后台向服务器发送一些内容 在执行后关闭对话框并启用一个按钮 但是 由于 doInBackground 返回 null 我的后执行未执行 我试图弄清楚我能做些什么来让 postExec
  • 如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode?

    我需要 Python dateutil 1 5parse http labix org python dateutil head a23e8ae0a661d77b89dfb3476f85b26f0b30349c使用 Unicode 月份名称
  • 使用 Java 将包含 XML 的字符串添加到 SOAPElement

    我必须将 Excel 文件中的数据作为 XML 发送到 Web 服务 表中的数据看起来有点像这样 请参阅此处的表格示例 https i stack imgur com NEOTi png 第一行始终包含该列数据的 XML 标记 大多数数据列
  • 从intellij-idea将代码样式格式化设置导入到eclipse中

    我最近实现了将 maven Check 样式插入到我的项目中 并更改了 intellij 我使用的 中的所有格式化程序设置 以符合此样式指南 他们现在这样做 不过 我需要为 eclipse 生成一个设置 xml 文件 以便我的同事可以自动格
  • ld:警告:__DATA/__objc_imageinfo__DATA 节的大小意外地大

    有谁知道这个警告是什么意思 接下来是错误 Command Developer Platforms iPhoneSimulator platform Developer usr bin llvm gcc 4 2 failed with exi
  • 如何在嵌入式Linux中高效地在VFAT分区上创建大文件

    我正在尝试在嵌入式 Linux 盒子中使用 dd 命令在 VFAT 分区上创建一个大的空文件 dd if dev zero of mnt flash file bs 1M count 1 seek 1023 目的是跳过前 1023 个块并在
  • Nginx no-www 到 www 以及 www 到 no-www

    我在用按照教程在 Rackspace 云上安装 nginx http www howtoforge com running phpmyadmin on nginx lemp on debian squeeze ubuntu 11 04并在网
  • 无法使用 Leiningen 构建 jar

    我正在尝试使用 Intellij 的 Cursive 中的 Leiningen 插件从我的基本 Clojure 项目中制作一个独立的 jar 为了创建项目 我刚刚创建了 project clj 文件 将其打开 Cursive 提出将其导入为
  • Heroku SSL 与 Route53

    我的 SSL 证书已全部设置完毕并准备好在 Heroku 上运行 我按照这里的说明进行操作https devcenter heroku com articles route 53 https devcenter heroku com art
  • Python 子进程调用不能采用 grep [重复]

    这个问题在这里已经有答案了 Python 子进程调用应该按原样作为命令运行 但如果其中有管道 它就会抱怨 这是我的代码 usr bin python import sys import subprocess import time serv
  • 如何在预构建步骤中转义美元符号

    我正在与 Visual Studio 进行斗争 以在预构建步骤中正确转义美元符号 目标是提供一个变量名作为文字 VS 不应该尝试处理变量名 The 文档 https msdn microsoft com en us library bb38
  • Angular 子路由不起作用并将我重定向到同一页面

    我尝试过改变我的route到目前为止我没有发现任何问题 但是 如果您发现任何缺陷 请告诉我 我也会尝试查找任何类型错误并仔细检查我的组件 到目前为止我还没有找到 但请再次告诉我 我尝试输入我的路线 URL 它可以工作 但显示的是相同的页面
  • 使用 Jackson JsonFormat 模式自定义日期字符串

    Summary 我正在尝试解析日期 例如25 Sep 17因此简单日期格式 https docs oracle com javase 8 docs api java text SimpleDateFormat html注释似乎是 JsonF
  • 将标头附加到 Rspec 控制器测试

    我正在尝试为我的控制器编写测试 该控制器接收来自外部服务的请求 到目前为止 这是我的测试 describe ApplyController do context when valid do let parameters do file Fi
  • 在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取

    好的 这就是我想要实现的目标 调用带有动态过滤搜索结果列表的 URL 点击第一个搜索结果 5 页 抓取标题 段落和图像 并将它们作为 json 对象存储在单独的文件中 例如 Title 单个条目的标题元素 Content 各个条目的 DOM
  • 自定义键盘中断处理程序

    我正在尝试编写一个简单的程序 将标准键盘中断替换为自定义的键盘中断 以减少变量 但是 如果不调用旧处理程序 它就无法工作 这是我的中断处理程序 handler proc push ax push di dec EF pushf when t
  • res.send 和 res.render 调用

    我试图确定是否可以同时调用 res send data 和 res render reports 为了进一步详细解释 当我路由到 reports 时 首先在服务器端对返回 json 数据的 API 进行 REST 调用 现在我希望在客户端上
  • 我有 12000 个已知 URL,用 Python 抓取它们的最快方法是什么?

    因此 我有一个从数据库中提取的 URL 列表 我需要抓取并解析每个 URL 的 JSON 响应 某些 URL 返回 null 而其他 URL 返回发送到 csv 文件的信息 我目前正在使用Scrapy 但是抓取这12000个URL大约需要4