pandas to_json() 多余的反斜杠

2024-04-27

我有一个包含电影数据的“.csv”文件，我正在尝试将其重新格式化为 JSON 文件以在 MongoDB 中使用它。所以我将该 csv 文件加载到 pandas DataFrame 中，然后使用 to_json 方法将其写回。 DataFrame 中的一行如下所示：

In [43]: result.iloc[0]
Out[43]: 
title                                                      Avatar
release_date                                                 2009
cast            [{"cast_id": 242, "character": "Jake Sully", "...
crew            [{"credit_id": "52fe48009251416c750aca23", "de...
Name: 0, dtype: object

但是当 pandas 写回来时，它就变成了这样：

{   "title":"Avatar",
    "release_date":"2009",
    "cast":"[{\"cast_id\": 242, \"character\": \"Jake Sully\", \"credit_id\": \"5602a8a7c3a3685532001c9a\", \"gender\": 2,...]",
    "crew":"[{\"credit_id\": \"52fe48009251416c750aca23\", \"department\": \"Editing\", \"gender\": 0, \"id\": 1721,...]"
}

正如您所看到的，“cast”和“crew”是列表，它们有大量多余的反斜杠。这些反斜杠出现在 MongoDB 集合中，导致无法从这两个字段中提取数据。

除了更换之外如何解决这个问题\" with "?

P.S.1：这就是我将 DataFrame 保存为 JSON 的方法：

result.to_json('result.json', orient='records', lines=True)

更新1：显然 pandas 做得很好，问题是由原始 csv 文件引起的。它们是这样的：

movie_id,title,cast,crew
19995,Avatar,"[{""cast_id"": 242, ""character"": ""Jake Sully"", ""credit_id"": ""5602a8a7c3a3685532001c9a"", ""gender"": 2, ""id"": 65731, ""name"": ""Sam Worthington"", ""order"": 0}, {""cast_id"": 3, ""character"": ""Neytiri"", ""credit_id"": ""52fe48009251416c750ac9cb"", ""gender"": 1, ""id"": 8691, ""name"": ""Zoe Saldana"", ""order"": 1}, {""cast_id"": 25, ""character"": ""Dr. Grace Augustine"", ""credit_id"": ""52fe48009251416c750aca39"", ""gender"": 1, ""id"": 10205, ""name"": ""Sigourney Weaver"", ""order"": 2}, {""cast_id"": 4, ""character"": ""Col. Quaritch"", ""credit_id"": ""52fe48009251416c750ac9cf"", ""gender"": 2, ""id"": 32747, ""name"": ""Stephen Lang"", ""order"": 3},...]"

我尝试更换"" with "（我真的想避免这种黑客行为）：

sed -i 's/\"\"/\"/g'

当然，当再次将其读取为 csv 时，它会导致某些数据行出现问题：

ParserError: Error tokenizing data. C error: Expected 1501 fields in line 4, saw 1513

所以我们可以得出结论，这种盲目更换是不安全的。任何想法？

P.S.2：我使用的是kaggle的5000部电影数据集：https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset https://www.kaggle.com/carolzhangdc/imdb-5000-movie-dataset

我遇到了同样的问题：解决方案分三步

1-来自 csv 的数据框，或者在我的例子中来自 xlsx：

 excel_df= pd.read_excel(dataset ,sheet_name=my_sheet_name)

2-转换为json（如果您的数据中有日期）

json_str = excel_df.to_json(orient='records' ,date_format='iso')

3-最重要的事情：json.loads **** 就是它了！

parsed = json.loads(json_str)

4-（可选）您可以编写或发送 json 文件：例如：本地写入

with open(out, 'w') as json_file:
    json_file.write(json.dumps({"data": parsed}, indent=4 ))

更多信息：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_json.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas to_json() 多余的反斜杠的相关文章

创建圆形图像 PIL Tkinter

Currently I have a zoom feature in my application that works very well however I d like the actual zoom box to be a circ
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
当 DetailView 遇到时更新模型字段。 [姜戈]

我有一个类似的 DetailViewviews py views py class CustomView DetailView context object name content model models AppModel templa
Jmeter动态生成请求的json负载

我有一个 Jmeter 测试计划我希望 HttpSampler 发送发布请求请求正文应包含 Json 如下所示 productIds p1 p2 我设置了一个随机变量生成器每次调用都会返回格式正确的 ProductId 我想做的是通过
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
嵌套对象的 AJV 模式验证

函数返回的对象看起来像这样 answer vehicle type 1 message Car model VW color red 答案对象始终存在其他字段基于 vehicle type E g 如果vehicle type 1 则有
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
PyQt - 如何检查 QDialog 是否可见？

我有个问题我有这个代码 balls Ball for i in range 1 10 因此当我说 Ball 时这将在 QDialog 上绘制一个球然后当这完成后我正在移动球QDialog无限循环中我想说类似的话while QDi
如何使用数据库在 Django 中的应用程序之间交换数据？

我正在使用 Django 在网络上工作我创建了 2 个应用程序第一个用于客户端注册并将其数据添加到数据库第二个应用程序供用户访问和查看交互界面这个想法是使用第二个应用程序从数据库中的客户端获取数据并使用它向用户显示一些信息我的问
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见

随机推荐

XML布局在android studio中不换行

在我更新 android studio 后布局编辑器中的 XML 格式被破坏了最初每个属性都位于单独的行上然而现在有两个或三个属性占据一条线我进入设置 gt 编辑器 gt 代码样式 gt XML 在布局文件区域下将换行属
旋转 UISplitViewController 后模态消失

我有一个奇怪的问题 UISplitViewController 我的主视图控制器中有一个按钮点击时会打开一个模式视图使用简单的故事板转场但是当我旋转 iPad 时模式视图会消失但仅限于从纵向旋转到横向时我的主视图控制器以纵向隐
Intellij Idea 中 Dockerfile 部署失败（未连接到 docker）

我是 Docker 新手只是想按照此中的说明进行操作我创建了非常简单的 Dockerfile 但部署失败问题是没有太多信息 Docker 已启动并正在运行我可以从 IDE 连接到它码头工人信息如果您最近更改了 Docker De
DbContext.Entry 附加实体

从我的研究中我了解到调用 DbContext Entry someEntity 会自动将实体附加到上下文然而当我这样做时我发现实体的状态是分离的任何人都可以阐明这一点以及 DbContext Entry 的工作原理吗我正在使用
如何纠正 Rails 控制台命令的错误？

当我位于 Rails 应用程序的根目录中时我可以成功执行rails server 但是当我尝试做时rails console or rails c我收到以下错误 myrailsapp master rails c Users myuser
如何从 ActionBar 中删除顶部边框阴影

我正在开发一个新的 Android 应用程序由于某种原因这个新应用程序我自己没有添加额外的代码在操作栏上有一个顶部边框阴影好像是我使用 Android Studio 创建新项目时默认添加的我怎样才能有一个只有底部阴影的普通操作栏
使用 Javascript（或任何客户端）绘制方程

有没有可以用来绘制数学方程的库最好使用 javascript 我也可以使用 Java 或者任何客户端你看过弗洛特吗 http code google com p flot http code google com p flot
如何在 Bluez/Linux 上从 GATT 服务器获取断开连接事件

环境 Bluez 5 14 Linux 3 1 USB 可插拔 BLE 无线电 TI BLE 密钥卡 CC2541 开发套件 Linux 设备 USB BLE 无线电我们使用 gatttool 启用 TI 密钥卡上的按键事件并开始监听事件
如何在应用样式器功能后删除列

应用样式器后如何删除列这是我的样式函数 def highlight late x c1 background color red condition m x price 1 lt x price main x m2 x price 2 l
Android 错误：二进制 XML 文件第 16 行：添加地图片段时膨胀类片段时出错

我正在尝试使用地图 api v2 显示地图这是我的 xml 代码
d3 转换改变了哪些属性？

我试图了解 d3 中到底发生了什么转换例如 var bars svg selectAll null data my values enter append rect statement before transition attr x 1
什么是 lub(null, Double)？

表15 25 B http docs oracle com javase specs jls se8 html jls 15 html jls 15 25在 JLS 版本 8 中表示条件表达式的类型 true null 0 0 is lub
由于 poms 中的版本发生更改，合并来自 Maven 发布分支的更改会产生冲突

按照标准实践我有一个用于功能开发的 svn 主干以及一个用于构建版本的分叉分支该分支是使用 maven 发布插件创建的该插件也用于创建发布碰巧的是偶尔的错误将在分支上修复并且这些更改需要合并回主干为了不错过任何更改我希望能
SwiftUI 列表内存问题，图像未从 RAM 中释放导致崩溃

我正在将图像加载到 SwiftUI 列表中当向下滚动太多图像时 RAM 会飙升并导致应用程序崩溃为什么当用户向下滚动经过图像时图像不会被释放我正在加载图像如下所示 List allProducts id self product i
Django 外键多对一关系显示在模板上

我正在尝试显示与公司多对一相关的工作机会但我无法做到这一点我已经尝试了很多循环但我什至没有得到查询集所以我一定做错了但无法解决我做错的事情 My files 模型 py class Company models Model f
将 div 的内容放在一起以便在 IE8 中打印

给定以下 HTML 文档我需要将表标题行保留在与 table 在 IE8 中打印时尽管page break inside avoid 标题和表格之间仍然有一个分页符我对此的理解表明应该避免分页并且整个div推至第 2 页文档类型
将选定的下拉列表值从视图传递到控制器

我想从我的视图将参数字符串传递到我的控制器该值应该是从视图的下拉列表中选择的值单击按钮后会调用该方法但在控制器中该参数始终为空在视图中 using Html BeginForm Send Overview FormMethod
iOS客户端的Youtube API如何获取Client Secret？

我正在开发 iOS 应用程序其中包含在 Youtube 上上传视频的功能我遵循了一个示例项目yt direct lite ios https github com youtube yt direct lite iOS 该项目需要客户编号
rdf:seeAlso 和 rdfs:seeAlso 之间的区别

有什么区别rdf seeAlso and rdfs seeAlso 当我可以使用时rdf seeAlso当我可以使用时rdfs seeAlso 你能举出一些例子吗首先请注意rdf and rdfs分别是常用于引用 RDF 语法和 RDF
pandas to_json() 多余的反斜杠

我有一个包含电影数据的 csv 文件我正在尝试将其重新格式化为 JSON 文件以在 MongoDB 中使用它所以我将该 csv 文件加载到 pandas DataFrame 中然后使用 to json 方法将其写回 DataFrame

pandas to_json() 多余的反斜杠

pandas to_json() 多余的反斜杠 的相关文章

随机推荐

热门标签

pandas to_json() 多余的反斜杠的相关文章