当其中存在 HTML 转义字符串时，使用 python (pandas) 读取 CSV 文件

2023-12-02

我正在尝试使用 pandas read_csv 读取 CSV 文件。数据看起来像这样（示例）

thing;weight;price;colour
apple;1;2;red
m &amp; m's;0;10;several
cherry;0,5;2;dark red

由于 HTML 转义的 & 符号，根据 pandas，第二行将包含 5 个字段。我如何确保该内容被正确读取？

这里的例子几乎就是我的数据的样子：分隔符是“;”，没有字符串引号，cp1251 编码。我收到的数据相当大，读取它必须一步运行（意味着在 python 之外不需要进行预处理）。

我在 pandas 文档中没有找到任何参考（我使用 pandas 0.19 和 python 3.5.1）。有什么建议么？提前致谢。

取消转义 html 字符引用:

import html
with open('data.csv', 'r', encoding='cp1251') as f, open('data-fixed.csv', 'w') as g:
    content = html.unescape(f.read())
    g.write(content)
print(content)
# thing;weight;price;colour
# apple;1;2;red
# m & m's;0;10;several
# cherry;0,5;2;dark red

然后以通常的方式加载 csv：

import pandas as pd
df = pd.read_csv('data-fixed.csv', sep=';')
print(df)

yields

     thing weight  price    colour
0    apple      1      2       red
1  m & m's      0     10   several
2   cherry    0,5      2  dark red

尽管数据文件“相当大”，但您似乎有足够的内存将其读入 DataFrame 中。因此，您还应该有足够的内存来将文件读入单个字符串：f.read()。通过一次调用即可转换 HTMLhtml.unescape比调用更高效html.unescape在许多较小的弦上。这就是为什么我建议使用

with open('data.csv', 'r', encoding='cp1251') as f, open('data-fixed.csv', 'w') as g:
    content = html.unescape(f.read())
    g.write(content)

而不是类似的东西

with open('data.csv', 'r', encoding='cp1251') as f, open('data-fixed.csv', 'w') as g:
    for line in f:
        g.write(html.unescape(line))

如果您需要多次读取此数据文件，那么修复它（并将其保存）是值得的到磁盘），这样你就不需要调用html.unescape每次你想解析的时候数据。这就是为什么我建议将未转义的内容写入data-fixed.csv.

如果读取此数据是一项一次性任务，并且您希望避免写入磁盘的性能或资源成本，那么您可以使用 StringIO（内存中的文件类对象）：

from io import StringIO
import html
import pandas as pd

with open('data.csv', 'r', encoding='cp1251') as f:
    content = html.unescape(f.read())
df = pd.read_csv(StringIO(content), sep=';')
print(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当其中存在 HTML 转义字符串时，使用 python (pandas) 读取 CSV 文件的相关文章

如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
如何在 Ubuntu 16.04 上的 Python 3 / Matplotlib 2 中安装底图？

I tried pip3 install basemap but Basemap https sourceforge net projects matplotlib files matplotlib toolkits 好像不在 PyPI 上
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
gitlab-ci 的缓存虚拟环境

我使用 Gitlab CI 脚本缓存了 Pip 包所以这不是问题现在我还想赶上Conda虚拟环境因为它减少了设置环境的时间我缓存了一个虚拟环境不幸的是最后需要很长时间才能缓存所有 venv 文件我尝试仅缓存 CI PROJEC
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

使用方法体的 Java 8 谓词仅被调用一次？

我检查了以下片段 public static
包括使用 data.table[by=...] 时的所有排列

我有一个大data table我正在使用以下方法将其折叠到月份级别 by 变量有 5 个级别数 c 4 3 106 3 1380 106 是月份 1380 是地理单位事实证明有一些 0 因为有些单元格没有值 by放弃这些但我希望它保
Django 多个用户配置文件/子配置文件

我正在尝试创建一个具有内部外部用户特定配置文件和通用通用配置文件的内联网外联网我已经查看了该网站上的几个答案但没有一个具体解决我想要做的事情以下是我迄今为止拥有的精简的文件创建配置文件模型以及针对每种用户类型的子配置文件的最
Angular 2 - 当一个 Http 请求依赖于另一个 Http 请求的结果时该怎么办

我无法弄清楚如何使用 Http 请求的结果来发出另一个 Http 请求我有一个从后端 API 请求并接收 JSON Web 令牌的服务如下所示 Injectable export class JwtAuthorizationServic
使用列别名作为排序键的 Spring 批处理 - 格式错误的“where”语句

我正在使用 Spring batch 版本 3 0 6 RELEASE 查询 MySQL DB 中的某些数据然后对其进行处理使用详情查询提供者是MySqlPagingQueryProvider 设置查询提供程序时我将查询中的列之一指
R中的操作重载[重复]

这个问题在这里已经有答案了重载字符的最直接方法是什么我已经定义了 lt function paste sep str lt aa bb cc str aabbcc 但我不喜欢这种语法我认为str lt aa bb cc 会更好我正
Asp.Net Web API 路由未命中自定义操作

这是我的代码 public class SecurityController ApiController GET api Security Current public HttpResponseMessage GetCurrent POST
x 和 x 之间的调用不明确

我已经从 Visual Studio 切换到 Visual Studio Code 以在 Unity 中进行开发从那时起我已经获得了超过 1000 个某个班级成员和其他班级成员之间的通话不明确在任何地方它们都不是真正的错误我认为
更改输入值后，innerHTML 未更新（checked = true/false/"checked"）

简介我需要获取parentElement中的信息但是我需要更新输入信息当我抓取parentElement的innerHTML时在取消选中该框后它仍然显示为选中状态 html 没有反映我用 javascript 所做的更改我这里有
如何修复我的 Python nix flake 中的“[Errno 13] 权限被拒绝：'_cmp.pyi'”？

我正在尝试在 NixOS 上安装 jupyter book 我有这个薄片 description Introduction to Computational Literary Analysis a Textbook outputs self
Node.js 异步模块的复杂用例

我已经开始使用 Node js 作为后端来执行不同的操作例如数据库查询 API 调用等我正在阅读有关 Node js 的内容Async并决定尝试一下它一直适用于简单的用例在这些用例中我想要并行或串行执行一些任务但不知何故我遇到
Struts 2约定插件-上传超过2MB的文件

如果我尝试上传超过 2 MB 的文件则会出错我在 apache 网站上发现有两个单独的文件大小限制第一个是 struts multipart maxSize 它来自 Struts 2 default properties 文件此设
如何找到错误图像？

我在图像处理方面遇到问题但不知道如何解决我有2张图片图1 http goo gl BBxVl 图2 http goo gl X0VFW 图2实际上表达了图1 但它被物体覆盖了我正在使用 matlab 代码编写一个程序来定义如果图片
混合不同类别的结果，在 MySQL 中按分数排序

在我的 PHP 应用程序中我有一个 mysql 文章表其中包含以下列 article id articletext category id score 每篇文章都有一个分数该分数是根据其受欢迎程度计算的并且属于特定类别大约有 10
如何为类中的模板定义类型别名[重复]

这个问题在这里已经有答案了例如 struct Option 1 template
以编程方式为 RecyclerView Android 中的项目设置重力

我正在使用 RecyclerView Android 制作带有左右消息框的聊天线我想为 RecyclerView 的项目设置重力通常情况下我将 itemView 转换为 LinearLayout 然后为其设置 ParamLayout
Spring Data Jpa - 类型规范已弃用

我正在实现链接中的逻辑 Spring Data 多列搜索我想要搜索的地方FirstName 根据链接 https docs spring io spring data jpa docs current api org springframe
在Win7中构建R igraph包

我对源代码做了一个小改动igraph包因为我想基于以下实现森林防火方法广度优先搜索法 I used Rtools构建包并按照以下步骤操作link 但是我收到一条错误消息 foreign graphml c 38 29 fatal erro
即使在理解范围之后，列表理解也会重新绑定名称。这是正确的吗？

推导式显示出与范围界定的不寻常交互这是预期的行为吗 x original value squares x 2 for x in range 5 print x Prints 4 in Python 2 冒着抱怨的风险这是一个残酷的错误来
当其中存在 HTML 转义字符串时，使用 python (pandas) 读取 CSV 文件

我正在尝试使用 pandas read csv 读取 CSV 文件数据看起来像这样示例 thing weight price colour apple 1 2 red m amp m s 0 10 several cherry 0 5

当其中存在 HTML 转义字符串时，使用 python (pandas) 读取 CSV 文件

当其中存在 HTML 转义字符串时，使用 python (pandas) 读取 CSV 文件 的相关文章

随机推荐

热门标签

当其中存在 HTML 转义字符串时，使用 python (pandas) 读取 CSV 文件的相关文章