多线程以加快下载速度

2024-01-07

如何同时下载多个链接？我的下面的脚本可以工作，但一次只能下载一个，而且速度非常慢。我不知道如何在我的脚本中合并多线程。

Python 脚本：

from BeautifulSoup import BeautifulSoup
import lxml.html as html
import urlparse
import os, sys
import urllib2
import re

print ("downloading and parsing Bibles...")
root = html.parse(open('links.html'))
for link in root.findall('//a'):
  url = link.get('href')
  name = urlparse.urlparse(url).path.split('/')[-1]
  dirname = urlparse.urlparse(url).path.split('.')[-1]
  f = urllib2.urlopen(url)
  s = f.read()
  if (os.path.isdir(dirname) == 0): 
    os.mkdir(dirname)
  soup = BeautifulSoup(s)
  articleTag = soup.html.body.article
  converted = str(articleTag)
  full_path = os.path.join(dirname, name)
  open(full_path, 'w').write(converted)
  print(name)

HTML 文件名为links.html:

<a href="http://www.youversion.com/bible/gen.1.nmv-fas">http://www.youversion.com/bible/gen.1.nmv-fas</a>

<a href="http://www.youversion.com/bible/gen.2.nmv-fas">http://www.youversion.com/bible/gen.2.nmv-fas</a>

<a href="http://www.youversion.com/bible/gen.3.nmv-fas">http://www.youversion.com/bible/gen.3.nmv-fas</a>

<a href="http://www.youversion.com/bible/gen.4.nmv-fas">http://www.youversion.com/bible/gen.4.nmv-fas</a>

I use multiprocessing用于并行化事物——出于某种原因，我更喜欢它threading

from BeautifulSoup import BeautifulSoup
import lxml.html as html
import urlparse
import os, sys
import urllib2
import re
import multiprocessing


print ("downloading and parsing Bibles...")
def download_stuff(link):
  url = link.get('href')
  name = urlparse.urlparse(url).path.split('/')[-1]
  dirname = urlparse.urlparse(url).path.split('.')[-1]
  f = urllib2.urlopen(url)
  s = f.read()
  if (os.path.isdir(dirname) == 0): 
    os.mkdir(dirname)
  soup = BeautifulSoup(s)
  articleTag = soup.html.body.article
  converted = str(articleTag)
  full_path = os.path.join(dirname, name)
  open(full_path, 'w').write(converted)
  print(name)

root = html.parse(open('links.html'))
links = root.findall('//a')
pool = multiprocessing.Pool(processes=5) #use 5 processes to download the data
output = pool.map(download_stuff,links)  #output is a list of [None,None,...] since download_stuff doesn't return anything

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

lxml

urllib2

urllib

多线程以加快下载速度的相关文章

scikit-learn LinearRegression 的意外交叉验证分数

我正在尝试学习使用 scikit learn 来完成一些基本的统计学习任务我认为我已经成功创建了适合我的数据的线性回归模型 X train X test y train y test cross validation train test
如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
如何修复错误“错误：命令错误，退出状态 1：python。”尝试使用 pip 安装 django-heroku 时[重复]

这个问题在这里已经有答案了我正在尝试使用 pip 安装 django heroku 但它一直遇到错误我看到一些建议告诉我要确保 Heroku 中的 Python 版本是最新的我已经这么做了推送到 Heroku master 后我运
swig char ** 作为指向 char * 的指针

我在使用 swig 和 char 作为指向变量 char 的指针时遇到问题而不是作为 char 的列表我找不到将指针包装到 char 的方法目的是将连接的结果写入指针引用的 char 中以下是我的代码文件指针 cpp includ
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
django/whitenoise 存储后端导致错误

我在调试关闭时在 heroku 上运行 django 应用程序时遇到了 500 错误使用 rollbar 了解发生错误的原因后它报告了以下内容 ValueError The file media img 1 jpg could not
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
如何在 Google App Engine 中为模型定义唯一属性？

我需要一些独特的属性我怎样才能实现这个目标有没有类似的东西unique True 我正在使用适用于 Python 的 Google App Engine Google 提供了执行此操作的函数 http code google com a
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
如何在Python模拟中调用模拟方法

我想创建一个模拟方法来调用被模拟的底层方法我正在想象类似以下的内容但我找不到任何有关模拟对象的文档该对象包含对被模拟对象的引用我将其表示为 wrapped method foo below from mock import patc
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
Python：选择多个已安装模块版本之一

在我的系统上我多次安装了多个模块举个例子 numpy 1 6 1安装在标准路径中 usr lib python2 7 dist packages 我有一个更新版本numpy 1 8 0安装于 local python lib pytho
Python 异步 REST API 的响应依赖于 CPU 密集型计算。如何高效处理？ [复制]

这个问题在这里已经有答案了我已经使用编写了一个基本的 REST APIaiohttp https aiohttp readthedocs io en stable index html 下面包含其简化版本以说明我想要解决的问题该 AP
中断QThread睡眠

我想知道如何暂停 QThread 然后在收到信号时恢复我已阅读并知道我可以做这样的事情 def run self self ready False while not self ready self sleep 1 QtCore Slot
Django外键：获取相关模型？

是否可以通过外键字段本身获取外键的相关模型例如如果我有 3 个模型 class ModelA models Model field1 models CharField max length 10 class ModelB models
如何使用 Python Flask-Security 使用 bcrypt 加密密码？

我正在尝试使用 Flask Security 文档中的标准基本示例并使其正常工作除了密码以明文形式存储之外我知道这一行 user datastore create user email email protected cdn cgi
如何下载和使用对象检测数据集（例如 coco 或 pascal）

我对物体检测领域非常陌生我想知道是否有人可以帮助我下载和使用对象检测数据集例如 coco 或 pascal 当我下载数据集后访问他们的网站时我觉得我不知道应该如何处理它们我知道这个问题很愚蠢但是开始的提示可能非常有用谢谢我正在
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助

随机推荐

找不到所需的文件“setup.bin”

我无法在 VS2010 中为 Windows 服务项目构建安装项目它因以下错误而失败在 C MyProject Engine 中找不到所需的文件 setup bin 我的环境是Windows 7 专业版 x64 with Visual
PyODBC，cursor.execute() 不会将参数插入 SQL 字符串

我正在使用 pypyodbc 将数据插入数据库当我使用cursor execute 命令时我尝试输入sql字符串和参数但出现以下错误 SELECT uid FROM HP DATA WHERE hpName AND processID
Android WebView 应用程序在模拟器中崩溃：空应用程序上下文？

我正在 Mac 上的 AndroidStudio 中开发一个非常简单的 Android 应用程序并创建了一个基于 Nexus S 的 AVD 该应用程序编译没有问题模拟器启动然后我在 logcat 中收到错误应用程序崩溃在模拟器中
SetWindowsHookEx 在 32 位计算机上的 .NET 4.0 中失败并显示“未找到模块”？

我在此页面上发现了类似的问题但我似乎无法弄清楚如何解释答案或弄清楚它们是否真正重复以下是我发现的可能重复的内容并附有评论在 32 位计算机中编译 NET 4 0 框架时 SetWindowsHookEx 返回 0 https sta
在node.js中，我如何知道fs.stat()是否会返回给定文件/路径/卷/fs的可用crtime和/或birthtime字段？

我最近了解到不同的操作系统甚至同一操作系统下的不同文件系统支持不同的时间戳子集lstat https nodejs org api fs html fs fs lstat path options callback The Stats o
IMAP 的空闲搜索空闲中是否存在竞争条件？

我有一堆代码执行 IMAP 命令搜索空闲完成搜索空闲完成搜索是否有可能某些消息在搜索和空闲命令之间到达因此只能在空闲返回超时后由该代码接收 EDIT1 我用 GMail 尝试过在消息处理和 IDLE 之间使用 slee
Objective-C 中类加载时的静态初始化器

我正在尝试构建一些东西来从类名动态实例化一个对象类似于Java的Class forName方法的工作方式例如 Class klass Class forName MyClass Object obj klass instantiate
通过将 a.localeCompare(b) 切换为 (ab?1:0))，排序速度提高 400 倍

通过切换 javascript 排序函数 myArray sort function a b return a name localeCompare b name to myArray sort function a b return a
Django 中使用 F() 进行模数查询

我想过滤 Django 对象使其 id modulo K N 这是在 python 中执行此操作的一种方法但我希望它在 filter 中 for foo in Foo objects all if foo id K N print fo
HTML - 自定义输入分钟和秒

我正在尝试创建一个 HTML 输入最多可以输入 100 分钟 59 秒输入应该像时间输入一样有人知道我能做什么吗您要么执行一些 JavaScript 代码要么开始使用框架不是 jquery 可以支持你这样做但这里有一些 jqu
如何不将源文件夹gsutil存储桶复制到存储桶？

我只是想递归复制content我的一个存储桶目录到另一个存储桶当我跑步时 gsutil m cp r gs my first bucket source dir gs my second bucket target dir 我愿意找不到s
从 Heroku 服务器上的 NodeJS 连接到 Mysql

知道如何从 NodeJs 连接到 Heroku 上的 Mysql ClearDB 吗我能够从 Navicat 连接到在 Heroku 上运行的 ClearDB Mysql 我什至创建了一个名为 t users 的表但我在从 Heroku
如何在使用 Javascript 更改的输入字段中触发事件

改写我有一个带有关联 onchange 事件的选择字段
RxJava2 toList() 从不发出

所以我有以下 Disposable 不起作用我使用 Room 从表中获取所有行作为列表将它们映射到某个内容并创建一个列表然后它不会从那里继续 storedSuggestionDao getSuggestionsOrderByType
Android：日期选择器不应接受当前日期和未来日期

如何限制日期选择器接受 Android 中的当前和未来日期我正在使用 google api 任何想法从 API 级别 11 开始有一种方法可以实现这一点 DatePicker setMaxDate long maxDate 如果必须在以
如何使带有匿名内部类动作侦听器的 JButton 在单击时自行删除？

您好感谢您提前阅读本文这是我的问题 final JButton button new JButton button addActionListener new ActionListener public void actionPerfo
如何在 OS X 上使用curl 将文件下载到新创建的目录？

我正在尝试将 Heroku 备份下载到文件夹中像这样下载到当前文件夹是可行的 curl o latest dump heroku pg backups public url 但是当我尝试添加一个folders路径到latest dump它
AppEngine Memcache 原子获取和删除

我想将身份验证质询存储在 Google AppEngine 的 Memcache 中并按随机整数进行索引例如我有这样的条目 5932 gt IUH HKJSBOHFBAHV EG Y HF739r7fGA 74gflUSAB 1123
使用 JSON-C 的内存泄漏

我是 JSON C 的新手请查看我的示例代码并让我知道它会造成任何内存泄漏如果是那么如何释放 JSON C 对象 struct json object new obj NULL new obj json tokener parse s
多线程以加快下载速度

如何同时下载多个链接我的下面的脚本可以工作但一次只能下载一个而且速度非常慢我不知道如何在我的脚本中合并多线程 Python 脚本 from BeautifulSoup import BeautifulSoup import lxml

多线程以加快下载速度

多线程以加快下载速度 的相关文章

随机推荐

热门标签

多线程以加快下载速度的相关文章