lxml etree.iterparse 错误“TypeError：读取文件对象必须返回纯字符串”

2024-02-03

我想使用 lxml 解析 HTML 文档。我正在使用 python 3.2.3 和 lxml 2.3.4 (http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml )

我正在使用etree.iterparse解析文档，但它返回以下运行时错误：

Traceback (most recent call last):
  File "D:\Eclipse Projects\Python workspace\Crawler\crawler.py", line 12, in <module>
    for event, elements in etree.iterparse(some_file_like):
  File "iterparse.pxi", line 491, in lxml.etree.iterparse.__next__ (src/lxml\lxml.etree.c:98565)
  File "iterparse.pxi", line 512, in lxml.etree.iterparse._read_more_events (src/lxml\lxml.etree.c:98768)
TypeError: reading file objects must return plain strings

问题是：如何解决这个运行时错误？

非常感谢。

这是代码：

from io import StringIO
from lxml import etree

some_file_like = StringIO("<root><a>data</a></root>")

for event, elements in etree.iterparse(some_file_like): #<-- Run-time error happens here
    print("%s, %4s, %s" % (event, elements.tag, elements.text))

您的 StringIO 缓冲区有 unicode 字符串。iterparse适用于返回字节的类似文件的对象。以下缓冲区应与 iterparse 一起使用：

from io import BytesIO
some_file_like = BytesIO("<root><a>data</a></root>".encode('utf-8'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

lxml

elementtree

iterparse

lxml etree.iterparse 错误“TypeError：读取文件对象必须返回纯字符串” 的相关文章

Python 中的字节数组

如何在 Python 中表示字节数组如 Java 中的 byte 我需要用 gevent 通过网络发送它 byte key 0x13 0x00 0x00 0x00 0x08 0x00 在Python 3中我们使用bytes对象也称为s
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

使用 Jest 和 Enzyme 测试 FaC 时未找到 React Node 节点

我正在 React Native 中构建一个应用程序我们最近开始在应用程序中使用 TypeScript 我的任务是迁移单元测试有一项测试奇迹般地失败了该应用程序有一个
如何在单个 openshift yaml 模板中拥有多种对象类型？

以下是名称为 Claim1 的单个 PersistentVolumeClaim 的示例模板 apiVersion v1 kind PersistentVolumeClaim metadata name claim1 spec accessM
如何设置队列以使所有订阅者都能收到消息 - Rabbitmq

我正在阅读 RabbitMQ in Action 一书仍在第 2 章中但作者说的一件事让我感到困惑您设置一个交换并发送一条消息两个订阅者正在监听队列当第一条消息到达时第一个订阅者会收到它并且一旦确认该消息就会被删除当下一个消
GitHub Api 下载 zip 或 tarball 链接

这里有一个关于如何创建 zip tarball 字符串的很好的链接当我从 github 下载 zip 时文件名末尾的十六进制字符串代表什么 https stackoverflow com questions 6334040 when i
Android OpenOrCreateDatabase 空指针异常

我在打开数据库时在 EhActivity 类中遇到 NullPointerException public class EHActivity extends Activity ArrayList
何时在全局变量前使用 static 关键字？

有人可以解释一下何时应该在头文件中定义的全局变量或常量之前使用 static 关键字吗例如假设我有一个包含以下行的头文件 const float kGameSpriteWidth 12 0f 这个应该有static在前面const或不
.NET Core 覆盖控制器级别授权特定操作的属性

这是一个示例控制器来解释这种情况 Authorize public class AccountController ControllerBase AllowAnonymous Authorize Policy SpecificPolicy
为什么 memcpy 会导致编译器似乎忘记严格别名？

考虑以下 C 代码 std uint32 t func std uint32 t p1 std uint64 t p2 p2 p1 return p1 编译用 O3在 Clang 上产生以下反汇编 GCC 类似 func unsigned
视图控制器之间的通信

给定具有 UINavigationController 和 2 个 UITableViews 级别的应用程序部分即在根控制器上选择一行将第二个控制器推送到导航堆栈上我有以下问题 1 有一个两个控制器都需要的用户对象两个控制器之间通信
如何对包含 ES5 Sets 和 Maps 的对象进行字符串化？ [复制]

这个问题在这里已经有答案了我正在开发一个 Angular 应用程序我使用 Typescript 并有一个包含内置 Set 和 Map 类型的类我的问题是我想将类的实例作为 JSON 存储在浏览器的 localStorage 中但是
将单词列表转换为频率字典的最佳方法

将列表元组转换为字典其中键是列表的不同值值是这些不同值的频率的最佳方法是什么换句话说 a b b a b c gt a 2 b 3 c 1 我已经多次做过类似上述的事情标准库中有什么可以为你做的吗 EDIT 雅各布加布里埃尔森
如何在 Yii 中设置默认控制器

有没有办法在 Yii 中指定默认控制器而不是使用 SiteController 先感谢您将默认控制器设置为 Yii PHP Framework 上主页的控制器您必须修改 protected config main php 上的核心默认
SwiftUI 列表中的自定义按钮

列表中的 SwiftUI 自定义按钮 https i stack imgur com X6bte png 我正在尝试在 SwiftUI 列表中创建一个自定义按钮我希望它具有蓝色背景和白色文本重要的是保持蓝色并在按下时达到 50 的不透
在 React 中通过 TypeScript 解构赋值

我应该怎么做类似的事情 class App extends React Component render const x y z this props return 在打字稿中目前 tslinter 显示错误输入 Readonly Re
带 Bootstrap 下拉菜单的 DataTable 固定列

I use 数据表 https datatables net with 固定柱 https datatables net extensions fixedcolumns 使用 Bootstrap 进行扩展和样式设置我设置为固定的列包含Bo
创建时向 django-rest-framework ModelViewSet 添加附加字段的最佳方法

我有一个 Book 模型带有用户书的所有者的外键 class Book models Model owner models ForiegnKey User 我为 Book 创建了一个 ModelViewSet 它显示登录用户拥有的书籍
为什么 virtualenv 从我的 shell 继承 $PYTHONPATH？

因此我正在 Ubuntu 14 04 机器上将所有工具从 python2 迁移到 python3 4 到目前为止我已完成以下操作在我的 zshrc 中为我的用户将 python 别名为 python3 在系统本身上安装了 pip3 但
用于制作 slug 的 PHP 函数（URL 字符串）

我想要一个从 Unicode 字符串创建 slugs 的函数例如gen slug Andr s Cortez 应该返回andres cortez 我该怎么做呢与其进行冗长的替换不如试试这个 public static function
itertools.product() 返回值

当我尝试运行以下代码时 product 1 2 3 a b 它返回以下类型的对象
lxml etree.iterparse 错误“TypeError：读取文件对象必须返回纯字符串”

我想使用 lxml 解析 HTML 文档我正在使用 python 3 2 3 和 lxml 2 3 4 http www lfd uci edu gohlke pythonlibs lxml http www lfd uci edu go

lxml etree.iterparse 错误“TypeError：读取文件对象必须返回纯字符串”

lxml etree.iterparse 错误“TypeError：读取文件对象必须返回纯字符串” 的相关文章

随机推荐

热门标签