读取带有转义字符的 csv

2024-01-10

我有一个 csv 文件，其中包含一些文本。我想对这段文本进行标记（拆分为单词列表），但我遇到了如何处理的问题pd.read_csv解释转义字符。

我的 csv 文件如下所示：

text, number
one line\nother line, 12

代码如下：

df = pd.read_csv('test.csv')
word_tokenize(df.iloc[0,0])

输出是：

['one', 'line\\nother', 'line']

而我想要的是：

['one', 'line', 'other', 'line']

问题是pd.read_csv()不解释\n作为换行符但作为两个字符 (\ and n).

我尝试过设置escapechar论证'\' and to '\\'但两者都只是从字符串中删除斜杠，而不对换行符进行任何解释，即字符串变成on one linenon other line.

如果我明确设置df.iloc[0,0] = 'one line\nother line', word_tokenize工作得很好，因为\n这次实际上被解释为换行符。

理想情况下，我会简单地改变方式来做到这一点pd.read_csv()解释该文件，但其他解决方案也可以。

这个问题的措辞有点不好。我猜pandas逃离\字符串中很混乱nltk.word_tokenize. pandas.read_csv只能使用一个分隔符（或正则表达式，但我怀疑你想要这样），所以它总是将文本列读取为"one line\nother line"，并转义反斜杠以保留它。如果你想进一步解析和格式化它，你可以使用转换器。这是一个例子：

import pandas as pd
import re

df = pd.read_csv(
         "file.csv", converters={"text":lambda s: re.split("\\\\n| ", s)}
)

以上结果为：

                       text   number
0  [one, line, other, line]       12

Edit:如果您需要使用nltk要进行拆分（假设拆分取决于语言模型），您需要在传递到之前对字符串进行转义word_tokenize;尝试这样的事情：

lambda s: word_tokenize(s.encode('utf-8').decode('unicode_escape')

Note:查询中的匹配列表非常棘手，因此您可能需要通过更改 lambda 将它们转换为元组，如下所示：

lambda s: tuple(re.split("\\\\n| ", s))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

读取带有转义字符的 csv 的相关文章

希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
使用 matplotlib.animation 从 CSV 文件实时绘图 - 数据绘制到第一个输入错误

我正在尝试绘制来自不断写入 CSV 文件的传感器的数据虽然成功创建实时绘图但每个新数据条目都会创建一条延伸到第一个数据条目的附加线见下文 Python 3 4 脚本 import matplotlib pyplot as plt im
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

Xcode 看不到我的 iOS 设备，但 iTunes 可以

我有一个奇怪的问题我的 Mac 上安装了装有 iOS 5 0 1 9A405 的 iPad 和 iOS SDK 5 0 1 以及 Xcode 4 2 Build 4C199 Xcode 看不到我的设备它像往常一样说 iOS设备而不是
Kafka Streams.allMetadata() 方法返回空列表

所以我正在尝试使用 Kafka 流进行交互式查询我有 Zookeeper 和 Kafka 在本地运行在 Windows 上我使用 C temp 作为 Zookeeper 和 Kafka 的存储文件夹我已经设置了这样的主题 kafka
在 Flutter 中更新下拉数据出现错误

我正在开发一个小部件其中包含dropdownbutton在颤振中该小部件创建dropdownmenuitems向用户传入的 url 发出请求后我已经看到正在拨打的电话和有效的响应但是当我使用setState要更新下拉列表的数据源我
你能从 lua 修改 C 结构体吗？

我希望能够拥有这个 Lua 代码 function myfunc s print s value s value 7 end 它应该适用于以下 C 代码 struct MyStruct float value void func MyStr
Func 委托中的 out 参数修饰符 (C#)

我是 C 的初学者只是一个关于 Func delegate 的问题 public delegate TResult Func
angularjs：在 ui-bootstrap 模式中使用指令

我不知道如何从使用 dialog 服务创建的模式中调用指令该指令还应该能够看到模式上的按钮并覆盖它们的 ng click 操作这是我的模态模板 div class modal header h1 Rechercher h1 div di
如何为Apple Watch添加加载视图？

我想在按下 WKInterfaceButton 后显示加载视图苹果提供的视图我需要这个因为按下 WKInterface 按钮后我将调用主 iPhone 应用程序来执行一些服务调用这将需要一些时间才能返回响应 WKInterface
从 Visual Studio 2012 签入 TFS 后，所有文件都标记为只读

我有两个项目的解决方案我刚刚标记了解决方案并签入了它现在所有文件的左侧都有蓝色挂锁的小图像这显然意味着它们被标记为只读到目前为止我一直只使用 Tortoise SVN 这是我第一次签入 TFS 那么为什么会发生这种情况或者如果这
防止TinyMCE删除span元素

这是问题演示你可以在这里尝试一下 http fiddle tinymce com SLcaab http fiddle tinymce com SLcaab 这是TinyMCE默认配置减去所有插件使用扩展有效元素跨度 1 打开 Ht
如何在 Linux 和 Solaris 上编译 C？

我想制作一个可以在 Linux 和 Solaris 中编译的 Makefile 我知道如何单独执行此操作但如何将两者结合起来并能够检测我正在使用哪种操作系统我试图仅对一个简单的 C 文件执行此操作但更改的是编译器的名称 GNU Aut
在 C++ 中，编译器“内联”函数对象意味着什么？

在维基百科中它表示此类对象与 for each 一起使用时具有性能优势因为编译器可以内联它们我对这在这种情况下的确切含义有点模糊或者在我不好意思说的任何情况下谢谢你的帮助最后一个参数为for each模板是一个functor
iOS 12 在 QuickType 栏中建议电话号码

Lyft 如何在 QuickType 栏中建议我的电话号码以便我无需手动输入我知道 Apple 在 iOS 12 中引入了自动填充用户名密码安全代码等功能看起来此电话号码建议可能使用类似的功能但我不知道如何让我的任何应用程序建议
http://schema.openid.net/contact/email 和 http://axschema.org/contact/email 之间的区别

何时使用http schema openid net contact email http schema openid net contact email以及何时使用http axschema org contact email http
捕获信号：使用成员函数作为信号处理程序

我有一个对象在无限循环中执行一些工作这main 实例化该对象并调用run 方法由于我不想使用线程因此我需要一个解决方案来使我的对象停止运行下面你就可以看到我的想法了 struct Foo void run running 1 whi
如何使用 C# 启动或停止远程计算机中的 IIS 和 Windows 服务

这段代码出现异常尽管我在远程计算机上拥有管理员权限 class Program static void Main string args var sc new System ServiceProcess ServiceController
Docker 在构建时组成缺失的纱线依赖项

在Dockerfile中运行yarn install时无法获取node modules文件夹 test sof docker compose yml Dockerfile package json yarn lock docker comp
HTTP 错误 503。该服务在简单的 ASP.NET 4.0 网站下不可用 [关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案我的本地笔记本电脑上发生了一些奇怪的事情我在本地工作了很长时间的网站没有启动为了解决这个问题我创建了一个仅包含 index ht
AngularJS 会忽略 HTTP 标头中的 Set-Cookie

我正在开发一个基于客户端 AngularJS 和服务器端 API Tomcat Jersey for WS 的 Java 应用程序我的API的某些路径受到限制如果用户没有会话则返回的响应状态为401 在客户端 401 http状态被拦
了解类对象构造

我正在阅读 N3797 的第 12 7 条给出以下示例 struct X int i struct Y X Y non trivial struct A int a struct B public A int j Y y non triv
读取带有转义字符的 csv

我有一个 csv 文件其中包含一些文本我想对这段文本进行标记拆分为单词列表但我遇到了如何处理的问题pd read csv解释转义字符我的 csv 文件如下所示 text number one line nother line 12

读取带有转义字符的 csv

读取带有转义字符的 csv 的相关文章

随机推荐

热门标签