使用SoupStrainer选择性解析

2024-01-13

我正在尝试解析购物网站上的视频游戏标题列表。然而，由于项目列表全部存储在标签内。

This http://www.crummy.com/software/BeautifulSoup/documentation.html#Improving%20Performance%20by%20Parsing%20Only%20Part%20of%20the%20Document文档的部分据说解释了如何仅解析文档的一部分，但我无法解决。我的代码：

from BeautifulSoup import BeautifulSoup
import urllib
import re

url = "Some Shopping Site"
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for a in soup.findAll('a',{'title':re.compile('.+') }):
    print a.string

目前打印任何具有非空标题引用的标签内的字符串。但它也对侧栏中的“特价”商品进行了定价。如果我只能拿产品列表div，我会一石二鸟。

非常感谢。

天哪，我很傻，我正在搜索属性 id = products 的标签，但它应该是product_list

如果有人来搜索的话，这是最终的代码。

from BeautifulSoup import BeautifulSoup, SoupStrainer
import urllib
import re


start = time.clock()
url = "http://someplace.com"
html = urllib.urlopen(url).read()
product = SoupStrainer('div',{'id': 'products_list'})
soup = BeautifulSoup(html,parseOnlyThese=product)
for a in soup.findAll('a',{'title':re.compile('.+') }):
      print a.string

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

scrape

使用SoupStrainer选择性解析的相关文章

Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav

随机推荐

使用另一个bat文件中的变量创建一个bat文件

我想创建一个bat文件其中包含另一个bat文件中的设置变量这是针对初创公司的 bat文件映射网络驱动器并将一些文件复制到本地计算机并查看需要运行的系统服务它还需要在每次登录 bat 文件运行时创建一个日志文件这是我所做的示例 ECH
好主意/坏主意？在一小部分子查询结果之外使用 MySQL RAND()？

因此在 MySQL 中我读到对于包含大量行的大型表使用 ORDER BY RAND 是一个坏主意即使有大约 500 行表缓慢且低效大量的行扫描这下看起来如何作为替代方案 SELECT FROM 通常返回少于 20 行的集
无法在 Colab 中导入 ToTensorV2

from albumentations pytorch transforms import ToTensorV2 我使用了上面的代码但它不起作用只需添加一个带有以下行的代码块 pip install albumentations 0 4
使用值进行条件格式设置时出现错误的单元格

当我使用公式创建新规则时我经常在 Excel 2010 上遇到问题该问题在我的几台计算机上都可以重现我选择多个单元格例如 A4 B143 然后使用以下公式之一创建新规则 A4 issue A4 issue 然后按 Enter 键当
将 CSV 文件导入 Java

在我正在编写的程序中我希望能够导入 CSV 文件目前它需要一个基本的文本文件 File mainemails new File mainemails txt 我知道对于 CSV 导入使用 File 可能不是最省时的方法导入 CSV
任何类型的数组总是聚合吗？

class A public A private int i A a 8 C 11 标准 8 5 1 1 说聚合是一个数组或类条款 9 没有用户提供的构造函数 12 1 没有非静态数据成员的大括号或等价初始化器 9 2 没有私有或受保护
无法读取架构文档“http://www.springframework.org/schema/beans/spring-beans-3.0.xsd”

启动我的 Spring 应用程序时出现以下错误 WARNING Ignored XML validation warning org xml sax SAXParseException schema reference 4 Failed
jquery append() 不适用于动态添加的元素

考虑 HTML ul li Default item li li Default item li ul
与儿童一起定制 Android 控件

我正在尝试创建一个自定义Android控件 that 包含一个 LinearLayout 您可以将其视为具有精美边框背景左侧图像的扩展 LinearLayout 我可以在 XML 中完成这一切效果很好但由于我的应用程序中出现了数十次
“块”、“块”、“偏移”、“缓冲区”和“扇区”是什么意思？

我见过一些处理存档或二进制数据或复制文件不使用 python 默认函数的脚本chunk or block or offset or buffer or sector 我创建了一个 Python 应用程序外部库存档提取数据或二进制
在哪里可以下载预编译的 GTK+ 3 二进制文件或 Windows 安装程序？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我看过 GTK 3 我喜欢它但不幸的是从源代码编译从来没有对我有用有没有像样的二进制文件或者更好的
Bash：将所有具有重复值的行保留在 X 列中

我有一个包含几千行和 20 多列的文件我现在只想保留第 3 列中与其他行中具有相同电子邮件地址的行文件名字姓氏电子邮件 Mike Tyson email protected cdn cgi l email protection T
调整大型结构向量大小时的分割错误

下面的代码生成分段错误我不明白为什么下面的代码使用向量来存储多个大型结构但代码无法运行并生成分段错误我不明白为什么我的理解是向量调整大小在堆中分配内存因此这不应该是堆栈溢出问题我的系统具有非常大的物理内存 256 GB 并且代
WooCommerce：根据运输方式自动完成付款订单

我有一种产品人们可以直接打印运送方式 1 或选择通过运送服务获取运送方式 2 因此如果他们选择仅直接打印送货方式 2 订单应该自动完成是否可以从 WooCommerce 扩展该代码片段从我找到的文档中this https do
Apache POI - Word (docx) 文档中的多列

我正在尝试创建一个包含多列的Word文档这样做而不是使用表格的原因是数据将跨越多个页面并且只有使用列我才能在添加到新页面之前填充整个页面可以用 Apache POI 来完成吗谢谢使用先前创建的具有多列的空文档怎么样像这样 X
根据条件降序排列

我想编写一个 LINQ to Entity 查询它根据输入参数按升序或降序排序有什么办法吗以下是我的代码请建议 public List
当未初始化的内存传递给函数时如何断言/测试

我遇到过这样的情况有时发现我的部分代码传递了未初始化的内存我正在寻找一种在使用调试堆运行时发生这种情况时可以断言的方法这是一个可以在其他地方抛出的函数以提供跟踪错误的额外帮助 void foo char data int dataB
jqplot、highcharts、flot如何从轴刻度处捕获点击事件

我希望能够捕获与所有轴刻度挂钩的单击事件这是我到目前为止所做的 http jsfiddle net grVFk 5074 http jsfiddle net grVFk 5074 如果有人知道如何使用任何图表插件来做到这一点请分享 th
QtToolBar 按钮文本中带有下划线快捷键

我有一个简单的 Qt 工具栏带有纯文本按钮Action MainWindow MainWindow QWidget parent QMainWindow parent QToolBar toolBar new QToolBar this
使用SoupStrainer选择性解析

我正在尝试解析购物网站上的视频游戏标题列表然而由于项目列表全部存储在标签内 This http www crummy com software BeautifulSoup documentation html Improving 20P

使用SoupStrainer选择性解析

使用SoupStrainer选择性解析 的相关文章

随机推荐

热门标签

使用SoupStrainer选择性解析的相关文章