子类化 beautifulsoup html 解析器，出现类型错误

2024-01-06

我使用 beautifulsoup 很棒的 html 解析器编写了一个小包装器

最近，我尝试改进代码并使所有 beautifulsoup 方法直接在包装类中可用（而不是通过类属性），我认为子类化 beautifulsoup 解析器将是实现此目的的最佳方法。

这是该类：

class ScrapeInputError(Exception):pass
from BeautifulSoup import BeautifulSoup

class Scrape(BeautifulSoup):
    """base class to be subclassed
    basically a subclassed BeautifulSoup wrapper that providers
    basic url fetching with urllib2
    and the basic html parsing with beautifulsoup
    and some basic cleaning of head,scripts etc'"""

    def __init__(self,file):
        self._file = file
        #very basic input validation
        import re
        if not re.search(r"^http://",self._file):
            raise ScrapeInputError,"please enter a url that starts with http://"

        import urllib2
        #from BeautifulSoup import BeautifulSoup
        self._page = urllib2.urlopen(self._file) #fetching the page
        BeautifulSoup.__init__(self,self._page)
        #self._soup = BeautifulSoup(self._page) #calling the html parser

这样我就可以开始上课了

x = Scrape("http://someurl.com")

并能够使用 x.elem 或 x.find 遍历树

这对于一些 beautifulsoup 方法（见上文）效果很好，但对于其他方法却失败了 - 那些使用像“for e in x:”这样的迭代器的方法

错误消息：

 Traceback (most recent call last):
  File "<pyshell#86>", line 2, in <module>
    print e
  File "C:\Python27\lib\idlelib\rpc.py", line 595, in __call__
    value = self.sockio.remotecall(self.oid, self.name, args, kwargs)
  File "C:\Python27\lib\idlelib\rpc.py", line 210, in remotecall
    seq = self.asynccall(oid, methodname, args, kwargs)
  File "C:\Python27\lib\idlelib\rpc.py", line 225, in asynccall
    self.putmessage((seq, request))
  File "C:\Python27\lib\idlelib\rpc.py", line 324, in putmessage
    s = pickle.dumps(message)
  File "C:\Python27\lib\copy_reg.py", line 77, in _reduce_ex
    raise TypeError("a class that defines __slots__ without "
TypeError: a class that defines __slots__ without defining __getstate__ cannot be pickled

我研究了错误消息，但找不到任何可以使用的东西 - 因为我不想玩 BeautifulSoup 的内部植入（老实说，我不知道或不理解__slot__ or __getstate__..）我只想使用该功能。

我尝试从返回一个 beautifulsoup 对象，而不是子类化__init__班级的但是__init__方法返回None

很高兴在这里得到任何帮助。

BeautifulSoup 代码中没有发生该错误。相反，您的 IDLE 无法检索和打印该对象。尝试print str(e)反而。

无论如何，在您的情况下子类化 BeautifulSoup 可能不是最好的主意。你真的想继承所有的解析方法（比如convert_charref, handle_pi or error）？更糟糕的是，如果您覆盖 BeautifulSoup 使用的某些内容，它可能会以难以发现的方式损坏。

不知道你的情况，但我建议更喜欢组合而不是继承 https://stackoverflow.com/questions/49002/prefer-composition-over-inheritance/891854#891854（即属性中有一个 BeautifulSoup 对象）。您可以轻松地（如果以一种稍微有点hacky的方式）公开像这样的特定方法：

class Scrape(object):
    def __init__(self, ...):
        self.soup = ...
        ...
        self.find = self.soup.find

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

子类化 beautifulsoup html 解析器，出现类型错误的相关文章

xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

通过线程下载图像错误

祝所有 StackOverFlow 会员和读者新年快乐我今天来找你询问有关 Delphi 中线程的问题我浏览了大部分已经发布的关于该主题的内容但找不到线索我有一个非常简单的测试应用程序其中包含一个表单 frmIMGDown 和一个
如何将 OPENID auth 集成到 REST api 和前端框架架构中

我目前正在制作一个需要用户登录的网站Steam http steamcommunity com 在他们可以使用我网站的其余功能之前 Steam 目前仅支持 OPENID 进行身份验证我的做法是按照以下步骤进行用户按下使用 Steam
python：分割字符串，用管道符号“|”分隔

看一下下面的字符串 E 1256280 2014 01 05 17 54 00 1 2014 01 05 18 59 53 True 我想把它分开管道符号因此我使用以下 python 代码其中 line 是包含上面描述的字符串的字符串
在 WP7 中打开具有特定 url 的网络浏览器

我将如何通过单击按钮时的特定网址打开网络浏览器将以下代码放入按钮 Click 事件处理程序中 var task new Microsoft Phone Tasks WebBrowserTask URL uri task Show
以编程方式添加带有按钮的视图

我想以编程方式添加一个视图和一个按钮如下所示问题是单击按钮时按钮没有反应我的意思是它既不会突出显示也不会调用选择器原因是我想为录音声音文件实现一个列表行列表行应该可以选择进行向下钻取并有一个播放按钮所以我得到了一个Reco
将给定行移动到 DataFrame 的末尾

我想从 DataFrame 中获取给定的行并将其添加到相同的 DataFrame 中我下面的代码就是这样做的但我不确定我是否以正确的方式这样做或者是否有更简单更好更快的方法 testdf df copy get row targe
Jetpack Compose 中具有等高行的网格布局

喷气背包组成我想创建一个像 UI 一样具有相同高度行的网格布局但我找不到用于获取当前可用屏幕尺寸的函数该应用程序应该看起来像这样 https i stack imgur com TTMQb png 结果应该是这样的看看上面提到的链接
在 Kotlin 中维护重复值的两个列表的交集

我想找到两个列表之间公共元素的数量而不消除重复项例如 input 1 3 3 4 3 3 output 2 因为共同元素是 3 3 input 1 2 3 4 3 3 output 1 因为共同元素是 3 如果我要使用 Kotlin 集合
为什么 psycopg2 和 pyodbc 连接数据库的方式不同？我该如何翻译连接？

所以我一直在努力寻找一个好的模块来查询我公司的 POSTGRES 数据库中的信息周围有很多模块但我似乎只能让 pyodbc 工作为什么 pyodbc 的连接形式与 psycopg2 不同后者似乎是更高级的模块我如何将连接查询从一种
数组索引超出范围的二维数组

我有一个二维数组但没有行数为 1 并且没有列数 gt 1 double T new double 1 24 System out println T 1 length 但是当我打印列的长度时它说索引超出范围但是当我打印以下内容时
Android停止录音失败

我将启动一项服务来开始录音当我试图停止时它显示以下消息 06 27 17 21 30 138 E MediaRecorder 6122 stop called in an invalid state 0 我不确定其他功能例如上传数据到
Symfony 表单事件将错误添加到特定字段

我的场景如下如果用户从 maxRedemptionForDiscount 中选择 true 并在 maxRedemptionForDiscountValue 中输入 0 则应该有一条错误消息呈现到特定字段在 TextType 字段的位置
打印机忽略 javax.print.attribute.PrintRequestAttributeSet 选项

我必须使用 javax print api 打印文件纯文本我能够查找打印机并提交打印作业但我只能打印该文件的一份副本下面是我一直在使用的代码打印机无法识别我使用 PrintRequestAttributeSet 指定的任何选项属
安装的构建工具修订版 28.0.3 已损坏。如何修复此错误

当我创建一个新项目时然后构建项目或尝试在模拟器中运行应用程序使用 sdk api level 28 Android 9 0 Pie 构建输出窗口总是显示此错误 Installed Build Tools revision 28 0 3
创建新线程的测试方法以及我们从事件中获得的结果（NUnit 2.6）

我的课程有一个公共方法Start 一个私有方法和一个事件Finishing Start call new Thread private method 私有方法使用事件返回值当这个方法完成工作后再调用这个事件现在我想为这个类编写测试如
BASH 脚本暂停/继续脚本内的进程

在我正在编写的 bash 脚本中我试图在后台启动一个进程睡眠然后挂起它最后该过程完成由于某种原因当我发送带有停止信号的kill命令时它只是继续运行就好像它没有收到任何消息一样我可以从命令行执行此操作但 bash 脚本未
应用程序可以在 Android 和 IOS 模拟器中运行，但在发布后不能运行

Problem 我创建了一个应用程序它是 MQTT 代理客户端当我使用 iOS Android 模拟器进行开发时我与代理的连接工作正常但是当我发布 apk 版本时我的应用程序无法连接它有套接字问题 AMQJS0007E 套接字
如何在Python中使用OpenSSL从pfx文件中提取密钥？

我需要签署一份xml与certificate and key from a pfx file 换句话说我有一个 pfx 文件我需要从其中提取pem an key签署我的xml 我发现这个脚本可以从 pfx 中提取笔和密钥但出现错误 i
任意多边形的宽度

我需要一种方法来表征二维点集的大小这样我就可以根据视口的比例来确定是否将它们渲染为空间中的单个点或代表性多边形我已经有一个算法来计算该集合的凸包以生成代表性多边形但我需要一种方法来表征其大小一个明显的衡量标准是凸包上点之间的最大距离
子类化 beautifulsoup html 解析器，出现类型错误

我使用 beautifulsoup 很棒的 html 解析器编写了一个小包装器最近我尝试改进代码并使所有 beautifulsoup 方法直接在包装类中可用而不是通过类属性我认为子类化 beautifulsoup 解析器将是实现此目

子类化 beautifulsoup html 解析器，出现类型错误

子类化 beautifulsoup html 解析器，出现类型错误 的相关文章

随机推荐

热门标签

子类化 beautifulsoup html 解析器，出现类型错误的相关文章