Urllib2 和 BeautifulSoup ：不错的一对，但太慢 - urllib3 和线程？

2024-01-09

当我听到有关线程和 urllib3 的一些好消息时，我正在寻找一种方法来优化我的代码。显然，人们不同意哪种解决方案是最好的。

下面我的脚本的问题是执行时间：太慢了！

Step 1: 我获取此页面

Step 2：我用 BeautifulSoup 解析页面

Step 3:我把数据放在excel文档中

Step 4:我对我列表中的所有国家（大列表）一次又一次地这样做（我只是将网址中的“阿富汗”更改为另一个国家）

这是我的代码：

ws = wb.add_sheet("BULATS_IA") #We add a new tab in the excel doc
    x = 0 # We need x and y for pulling the data into the excel doc
    y = 0
    Countries_List = ['Afghanistan','Albania','Andorra','Argentina','Armenia','Australia','Austria','Azerbaijan','Bahrain','Bangladesh','Belgium','Belize','Bolivia','Bosnia and Herzegovina','Brazil','Brunei Darussalam','Bulgaria','Cameroon','Canada','Central African Republic','Chile','China','Colombia','Costa Rica','Croatia','Cuba','Cyprus','Czech Republic','Denmark','Dominican Republic','Ecuador','Egypt','Eritrea','Estonia','Ethiopia','Faroe Islands','Fiji','Finland','France','French Polynesia','Georgia','Germany','Gibraltar','Greece','Grenada','Hong Kong','Hungary','Iceland','India','Indonesia','Iran','Iraq','Ireland','Israel','Italy','Jamaica','Japan','Jordan','Kazakhstan','Kenya','Kuwait','Latvia','Lebanon','Libya','Liechtenstein','Lithuania','Luxembourg','Macau','Macedonia','Malaysia','Maldives','Malta','Mexico','Monaco','Montenegro','Morocco','Mozambique','Myanmar (Burma)','Nepal','Netherlands','New Caledonia','New Zealand','Nigeria','Norway','Oman','Pakistan','Palestine','Papua New Guinea','Paraguay','Peru','Philippines','Poland','Portugal','Qatar','Romania','Russia','Saudi Arabia','Serbia','Singapore','Slovakia','Slovenia','South Africa','South Korea','Spain','Sri Lanka','Sweden','Switzerland','Syria','Taiwan','Thailand','Trinadad and Tobago','Tunisia','Turkey','Ukraine','United Arab Emirates','United Kingdom','United States','Uruguay','Uzbekistan','Venezuela','Vietnam']
    Longueur = len(Countries_List)



    for Countries in Countries_List:
        y = 0

        htmlSource = urllib.urlopen("http://www.cambridgeesol.org/institutions/results.php?region=%s&type=&BULATS=on" % (Countries)).read() # I am opening the page with the name of the correspondant country in the url
        s = soup(htmlSource)
        tableGood = s.findAll('table')
        try:
            rows = tableGood[3].findAll('tr')
            for tr in rows:
                cols = tr.findAll('td')
                y = 0
                x = x + 1
                for td in cols:
                    hum =  td.text
                    ws.write(x,y,hum)
                    y = y + 1
                    wb.save("%s.xls" % name_excel)

        except (IndexError):
            pass

所以我知道一切并不完美，但我期待着在 Python 中学习新东西！该脚本非常慢，因为 urllib2 没那么快，而 BeautifulSoup。对于汤的事情，我想我真的无法让它变得更好，但对于 urllib2，我不能。

编辑1：多处理对 urllib2 没用？ https://stackoverflow.com/questions/6905800/multiprocessing-useless-with-urllib2对我来说似乎很有趣。你们觉得这个潜在的解决方案怎么样？

# Make sure that the queue is thread-safe!!

def producer(self):
    # Only need one producer, although you could have multiple
    with fh = open('urllist.txt', 'r'):
        for line in fh:
            self.queue.enqueue(line.strip())

def consumer(self):
    # Fire up N of these babies for some speed
    while True:
        url = self.queue.dequeue()
        dh = urllib2.urlopen(url)
        with fh = open('/dev/null', 'w'): # gotta put it somewhere
            fh.write(dh.read())

编辑2：URLLIB3 谁能告诉我更多有关这方面的事情吗？

对多个请求重复使用同一个套接字连接（HTTPConnectionPool 和 HTTPSConnectionPool）（可选客户端证书验证）。https://github.com/shazow/urllib3 https://github.com/shazow/urllib3

至于我为不同页面请求同一网站 122 次，我想重复使用相同的套接字连接可能会很有趣，我错了吗？不能再快一点吗？ ...

http = urllib3.PoolManager()
r = http.request('GET', 'http://www.bulats.org')
for Pages in Pages_List:
    r = http.request('GET', 'http://www.bulats.org/agents/find-an-agent?field_continent_tid=All&field_country_tid=All&page=%s' % (Pages))
    s = soup(r.data)

考虑使用类似的东西工作池 http://pypi.python.org/pypi/workerpool/。参考海量下载器 https://github.com/shazow/workerpool/wiki/Mass-Downloader例如，结合urllib3 http://pypi.python.org/pypi/urllib3看起来像：

import workerpool
import urllib3

URL_LIST = [] # Fill this from somewhere

NUM_SOCKETS = 3
NUM_WORKERS = 5

# We want a few more workers than sockets so that they have extra
# time to parse things and such.

http = urllib3.PoolManager(maxsize=NUM_SOCKETS)
workers = workerpool.WorkerPool(size=NUM_WORKERS)

class MyJob(workerpool.Job):
    def __init__(self, url):
       self.url = url

    def run(self):
        r = http.request('GET', self.url)
        # ... do parsing stuff here


for url in URL_LIST:
    workers.put(MyJob(url))

# Send shutdown jobs to all threads, and wait until all the jobs have been completed
# (If you don't do this, the script might hang due to a rogue undead thread.)
workers.shutdown()
workers.wait()

您可能会从 Mass Downloader 示例中注意到，有多种方法可以执行此操作。我选择这个特定的例子只是因为它不那么神奇，但任何其他策略也都是有效的。

免责声明：我是 urllib3 和workerpool 的作者。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Urllib2 和 BeautifulSoup ：不错的一对，但太慢 - urllib3 和线程？的相关文章

从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
ModuleNotFoundError：没有名为“bs4”的模块

当我尝试像这样导入 BeautifulSoup 时 from bs4 import BeautifulSoup 当我运行我的代码时我收到此错误消息 ModuleNotFoundError No module named bs4 如果有人知
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
当底层连接是有状态时如何使用 Apache HttpClient？

我在谷歌上搜索了很多关于如何使用 HttpClient 进行多线程处理的信息他们中的大多数人建议使用 ThreadSafeClientConnManager 但我的应用程序必须登录某个主机登录表单页面以便 HttpClient 获得底
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a

随机推荐

Orchard 根据过滤的下拉选择创建投影或搜索

我认为我有一个简单的功能我试图将其添加到我的 Orchard 1 6 站点但我找不到任何有关如何执行此操作的教程或说明我有一个名为 Office 的自定义类型每个办公室都有一个名为 State 的自定义字段指示办公室所在的州实
当块后代时关注 ListView 中的 EditText (Android)

我有一个定制的ListView 每行都有一个EditText Buttons TextView 为了使 ListView 项目可点击我保留了android descendantFocusability blocksDescendants
如果字典键不可用，则返回默认值

我需要一种方法来获取字典值如果其键存在或者简单地返回None 如果没有然而 Python 提出了一个KeyError如果您搜索不存在的键则会出现异常我知道我可以检查密钥但我正在寻找更明确的内容有没有办法直接返回None如果密钥
如何在 OSX 上从命令行打开 Visual Studio Code？

The docs https code visualstudio com docs codebasics launching vscode提到一个名为的可执行文件code 但我不确定在哪里可以找到它以便我可以将其放在我的路径上我从 VS
div 边框半径问题（在 Firefox 和 Opera 上）

正如你所看到的有两张图片首先在 chrome 上右侧有 Be en 和 Yorumlar 按钮边框看起来非常好但第二张照片显示 firefox和opera有边框半径的问题我尝试做边框宽度薄边框 1px实心等但它看起来一样
EC.element_to_be_clickable 和 EC.presence_of_element_ located 之间单击（）元素的区别

我在间歇性单击某个元素时遇到 TimeoutExceptions 我尝试过显式等待和 time sleep 它工作了一段时间我一次又一次地遇到例外我想了解这是否是由预期条件引起的 WebDriverWait self driver 40
简单饼图：错误百分比未居中？

我有一个 symfony 项目我使用 bootstrap 作为样式并且我想使用 Easy Pie Chart 作为仪表板页面所以在 base html twig 中 block stylesheets endblock block
将任意 GUID 编码为可读 ASCII (33-127) 的最有效方法是什么？

GUID 的标准字符串表示形式大约需要 36 个字符这非常好但也非常浪费我想知道如何使用 33 127 范围内的所有 ASCII 字符以最短的方式对其进行编码简单的实现会产生 22 个字符只是因为128 bits 6 bits产量
来自旋转 JSON 的 D3 多系列折线图

这里有一个很好的多系列折线图示例http bl ocks org mbostock 3884955 http bl ocks org mbostock 3884955如果 tsv 数据被布置出来我确信它会看起来像这样 date 20111
.NET 进程可以分配的最大内存

垃圾收集器可以为 NET 进程分配的最大内存是多少当我编译到 x64 时 Process GetCurrentProcess MaxWorkingSet 返回大约 1 4GB 但是当我编译到 AnyCPU x64 时返回相同的数字对于
无法通过 shell 在 CentOS 7 上安装 phpMyAdmin

yum y install phpmyadmin 出现错误 Error Package phpMyAdmin 4 4 15 10 2 el7 noarch epel Requires php zip Available php common
是否可以在 WPF ItemsControl 中模拟边框折叠（ala CSS）？

我正在 WPF 中设置项目的样式ListBox 并希望在每个项目周围放置边框和BorderThickness设置为 1 例如相邻项目之间的上下边框都会被绘制因此看起来比侧边框更厚如下所示生成这些的项目模板ListBoxItems
ZeroMQ：重新绑定套接字时地址使用错误

将 ZeroMQ 套接字绑定到端点并关闭套接字后将另一个套接字绑定到同一端点需要多次尝试之前的调用zmq bind直到成功失败并出现错误地址正在使用 EADDRINUSE 下面的代码演示了这个问题 include
是否有一个好的数据结构可以执行查找、并集和解并操作？

我正在寻找一种可以相当有效地支持并集查找和解并的数据结构一切至少 O log n 或更好因为标准的不相交集结构不支持解并作为背景我正在用 MCTS 编写 Go AI http en wikipedia org wiki Monte
SSL 和 SocketChannel

理想情况下我只需要一个简单的SSLSocketChannel 我已经有一个可以通过普通方式读取和写入消息的组件SocketChannel 但对于其中一些连接我必须通过网络使用 SSL 然而这些连接上的操作是相同的有谁知道免费的SSL
如何在VBA中清空数组？

我正在开发一个与 COM 服务器交换对象的 Excel VBA 插件如下所示 get an array of objects Dim Ents As ISomething ComObject GetEntities Ents send a
log4j 记录两次

我正在使用 log4j 来记录错误和其他系统信息但来自在信息级别记录两次的信息 public static void main final String args throws Exception LOGGER info program
Java弹跳球

我正在尝试编写一个Java应用程序它在屏幕上绘制多个从框架边缘弹起的球我能成功抽出一个球然而当我添加第二个球时它会覆盖我绘制的初始球代码是 import java awt import javax swing import ja
从 iPhone 中的音乐文件中获取 NSData

我已从我的 iPhone 设备中检索了所有音乐和视频我现在困于将这些保存到我的应用程序中我无法从文件中获取原始数据任何人都可以帮我找到解决方案吗这是我用来获取音乐文件的代码 MPMediaQuery deviceiPod MPMed
Urllib2 和 BeautifulSoup ：不错的一对，但太慢 - urllib3 和线程？

当我听到有关线程和 urllib3 的一些好消息时我正在寻找一种方法来优化我的代码显然人们不同意哪种解决方案是最好的下面我的脚本的问题是执行时间太慢了 Step 1 我获取此页面 Step 2 我用 BeautifulSoup 解

Urllib2 和 BeautifulSoup ：不错的一对，但太慢 - urllib3 和线程？

Urllib2 和 BeautifulSoup ：不错的一对，但太慢 - urllib3 和线程？ 的相关文章

随机推荐

热门标签

Urllib2 和 BeautifulSoup ：不错的一对，但太慢 - urllib3 和线程？的相关文章