原本是list类型，pandas读入后变成str、obejct等其他的类型，恢复成list，并进行数据炸裂explode操作

2023-10-26

文章目录

本文章拟解决问题（不是这些问题请绕路）：
一、需求
二、操作步骤
总结

本文章拟解决问题（不是这些问题请绕路）：

pandas 读入数据时，将list读成了 object、str 格式，如何还原成list格式。
对 DataFrame 中的 list 格式的列进行炸裂，一行变成多行，列表中的列元素被拆开成单独的一行。
使用explode() 函数对 DataFrame 进行炸裂。
如果需要看，如果将 DataFrame 中的JSON、dict、map、key:value格式的数据解析出来，请看另一篇文章

一、需求

数据库中有一张传感器的数据表，如下图所示：其中的 data 字段中的数据是列表（数组），需要列表数据拆分成多行。
数据库中原始数据
下面是表中前几条数据：表头——id, data, create_time

id	data	created_time
1	[{"id":"设备状态","error":"0","name":"T101022","value":"1"},{"id":"Pf","error":"0","value":"0.943000"},{"id":"Fr","error":"0","value":"50.029999"},{"id":"Pfa","error":"0","value":"0.936000"},{"id":"Pfb","error":"0","value":"0.945000"},{"id":"Pfc","error":"0","value":"0.956000"},{"id":"EPI","error":"0","value":"2867518.750000"},{"id":"EPE","error":"0","value":"572.519958"},{"id":"EQL","error":"0","value":"965824.437500"},{"id":"EQC","error":"0","value":"13.120000"},{"id":"Ua","error":"0","value":"239.500000"},{"id":"Ub","error":"0","value":"241.000000"},{"id":"Uc","error":"0","value":"240.400009"},{"id":"Ia","error":"0","value":"421.200012"},{"id":"Ib","error":"0","value":"388.200012"},{"id":"Ic","error":"0","value":"423.000000"},{"id":"Uab","error":"0","value":"416.100037"},{"id":"Ubc","error":"0","value":"416.900024"},{"id":"Uca","error":"0","value":"415.600006"},{"id":"P","error":"0","value":"279.000000"},{"id":"Pa","error":"0","value":"94.200005"},{"id":"Pb","error":"0","value":"88.199997"},{"id":"Pc","error":"0","value":"96.599998"},{"id":"Q","error":"0","value":"80.400002"},{"id":"Qa","error":"0","value":"30.599998"},{"id":"Qb","error":"0","value":"24.600000"},{"id":"Qc","error":"0","value":"23.400000"},{"id":"Sa","error":"0","value":"100.799995"},{"id":"Sb","error":"0","value":"93.599998"},{"id":"Sc","error":"0","value":"103.200005"},{"id":"S","error":"0","value":"297.600006"}]	2022-04-01 00:00:00
2	[{"id":"设备状态","error":"0","name":"T101023","value":"1"},{"id":"Pf","error":"0","value":"-0.004000"},{"id":"Fr","error":"0","value":"50.020000"},{"id":"Pfa","error":"0","value":"0.139000"},{"id":"Pfb","error":"0","value":"-0.299000"},{"id":"Pfc","error":"0","value":"0.187000"},{"id":"EPI","error":"0","value":"599556.000000"},{"id":"EPE","error":"0","value":"1714.469971"},{"id":"EQL","error":"0","value":"165549.343750"},{"id":"EQC","error":"0","value":"297128.687500"},{"id":"Ua","error":"0","value":"239.000000"},{"id":"Ub","error":"0","value":"240.800003"},{"id":"Uc","error":"0","value":"240.000000"},{"id":"Ia","error":"0","value":"48.720001"},{"id":"Ib","error":"0","value":"86.400002"},{"id":"Ic","error":"0","value":"96.479996"},{"id":"Uab","error":"0","value":"415.499969"},{"id":"Ubc","error":"0","value":"416.300018"},{"id":"Uca","error":"0","value":"414.799988"},{"id":"P","error":"0","value":"-0.240000"},{"id":"Pa","error":"0","value":"1.600000"},{"id":"Pb","error":"0","value":"-6.160000"},{"id":"Pc","error":"0","value":"4.320000"},{"id":"Q","error":"0","value":"-52.480003"},{"id":"Qa","error":"0","value":"-11.200000"},{"id":"Qb","error":"0","value":"-19.199999"},{"id":"Qc","error":"0","value":"-22.080000"},{"id":"Sa","error":"0","value":"11.599999"},{"id":"Sb","error":"0","value":"20.799999"},{"id":"Sc","error":"0","value":"23.120001"},{"id":"S","error":"0","value":"55.520000"}]	2022-04-01 00:00:00
3	[{"id":"设备状态","error":"0","name":"T101024","value":"1"},{"id":"Pf","error":"0","value":"-0.004000"},{"id":"Fr","error":"0","value":"50.029999"},{"id":"Pfa","error":"0","value":"0.211000"},{"id":"Pfb","error":"0","value":"-0.120000"},{"id":"Pfc","error":"0","value":"-0.114000"},{"id":"EPI","error":"0","value":"93052.085938"},{"id":"EPE","error":"0","value":"1660.539917"},{"id":"EQL","error":"0","value":"75957.359375"},{"id":"EQC","error":"0","value":"348346.218750"},{"id":"Ua","error":"0","value":"239.100006"},{"id":"Ub","error":"0","value":"240.800003"},{"id":"Uc","error":"0","value":"240.100006"},{"id":"Ia","error":"0","value":"77.839996"},{"id":"Ib","error":"0","value":"59.599998"},{"id":"Ic","error":"0","value":"89.680008"},{"id":"Uab","error":"0","value":"415.600006"},{"id":"Ubc","error":"0","value":"416.499969"},{"id":"Uca","error":"0","value":"414.900024"},{"id":"P","error":"0","value":"-0.160000"},{"id":"Pa","error":"0","value":"3.920000"},{"id":"Pb","error":"0","value":"-1.680000"},{"id":"Pc","error":"0","value":"-2.400000"},{"id":"Q","error":"0","value":"-52.399998"},{"id":"Qa","error":"0","value":"-17.760000"},{"id":"Qb","error":"0","value":"-13.839999"},{"id":"Qc","error":"0","value":"-20.799999"},{"id":"Sa","error":"0","value":"18.559999"},{"id":"Sb","error":"0","value":"14.320001"},{"id":"Sc","error":"0","value":"21.440001"},{"id":"S","error":"0","value":"54.320000"}]	2022-04-01 00:00:00

二、操作步骤

1.从数据库中读入数据

source = pd.read_sql(sql="""
SELECT
	id,
	`data`,
	created_time
FROM
	table_name
""", con=con)

读入的原始数据如图：

原始数据为： 288 * 3

2.将数据炸裂：将JSON列表拆分，一个JSON对象一行

1）. 具体的代码过程：

踩坑：因为pandas读入数据，将 `JSON列表` 格式当做 `object`，所以在数据炸裂前需要先将数据格式改成 `list`。

# 将 data 列的数据类型 object 转成 str，并将原始数据中的 '['、']'删除
source['data'] = source['data'].str.replace('[', '')
source['data'] = source['data'].str.replace(']', '')

# 将 JSON列表 中的JSON对象之间使用 ‘#’隔开
source['data'] = source['data'].str.replace('},{', '}#{')

# 使用 lambda 表达式，按照 ‘#’ 切割str, 就能得到数据格式为 list 的列表
source['data'] = source['data'].apply(lambda x: x.split('#'))

# 使用 explode() 函数对列表进行炸裂，一行变多行
data = source.explode('data')

data

2）. 数据炸裂结果，如下图所示：数据规模从 `288 * 3` 变成 `7488 * 3`，原始数据中的JSON列表已经被拆成一个一个的JSON对象。

在这里插入图片描述

总结

使用 explode() 行数对DataFrame进行炸裂，需要保证炸裂的目标列的格式是list
小技巧：如果DataFrame的某一列本该是list，但是被当做object、str等类型时，可以将该列当做转成str后，在列表元素之间使用特殊符号（该符号不能在列表中出现过，不然切割时会污染原始数据）来进行隔开，然后使用split对该列进行切割，即可将该列转变成list格式了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

经验分享

数据分析

原本是list类型，pandas读入后变成str、obejct等其他的类型，恢复成list，并进行数据炸裂explode操作的相关文章

如何在 python 中的不同终端窗口中运行函数/线程？

我有一个这样的程序 from threading import Thread def foo1 arg print foo1 gt gt gt Something input foo1 gt gt gt Enter Something de
基于 Pandas 中的管道分隔列创建多个新列

我有一个 pandas 数据框其中有一个管道分隔的列其中包含任意数量的元素称为零件这些管道串中的元素数量从 0 到超过 10 个不等所有管道串中包含的唯一元素的数量并不比行数小很多这使得我无法在创建新列对于每一行我想创建一
用顶点之间的渐变填充 matplotlib 多边形

我正在使用 matplotlib 的 Poly3DCollection 绘制多边形三角形的集合三角形位于具有与其关联的颜色的顶点之间我目前正在用通过平均三个顶点的颜色确定的纯色填充每个三角形绘制三角形以形成 3D 表面网格 I w
当加载图标且 tk.mainloop 位于线程中时，Tkinter 会锁定 Python

这是测试用例 import Tkinter as tk import thread from time import sleep if name main t tk Tk thread start new thread t mainloop
如何从字符串读取 NumPy 二维数组？

如何从字符串中读取 Numpy 数组取一个像这样的字符串 0 5544 0 4456 0 8811 0 1189 并将其转换为数组 a from string 0 5544 0 4456 0 8811 0 1189 where a成为对象
如何从 __subclasses__ 中删除类？

当从类继承时子类可以通过父类访问 subclasses method class BaseClass pass class SubClass BaseClass pass BaseClass subclasses
使用 Pyodbc + UnixODBC + FreeTDS 设置连接设置

我使用 Pyodbc UnixODBC 和 FreeTDS 进行了设置但在其中的某个地方设置了一些选项但我不知道在哪里根据 SQL Server Management Studio 我的程序在打开连接时发送一些设置 set quote
Google CoLab 中的 Python 3 支持

我一直在尝试使用 Jupyter 笔记本https colab research google com https colab research google com 并且默认情况下它们似乎运行 Python 2 7 有什么方法可以在 Co
枚举列表中的列表

我有一个约会并记录了那天发生的事件我想枚举显示日历的日期的事件列表我还需要能够从列表中删除事件 def command add date event calendar if date not in calendar calendar
向类添加属性的更 Pythonic 方式？

我正在使用来自两个不同网页的数据集但对于同一个人数据集是合法信息一些数据在第一页上可用因此我使用正确的信息初始化被告对象并将我当前没有数据的属性设置为null 这是班级 class Defendant object holds d
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege
如何加载 caffe 模型并转换为 numpy 数组？

我有一个 caffemodel 文件其中包含 ethereon 的 caffe tensorflow 转换实用程序不支持的层我想生成我的咖啡模型的 numpy 表示我的问题是如何将 caffemodel 文件我还有 prototx
Linux 中如何确定哪个进程正在使用某个端口

我目前正在其默认端口上运行 RethinkDB 因为如果我将浏览器指向localhost 8080我看到 RethinkDB Web 界面我想关闭 RethinkDB 并使用以下命令在另一个端口上重新打开它 port offset争论然
如何在关心 NaN 值的同时获取数据框中值的百分比变化？

我有以下数据框 Date A 2015 01 01 10 2015 01 02 14 2015 01 05 NaN 2015 01 06 NaN 2015 01 07 5 2015 01 10 1 2015 01 11 NaN 2015 0
在 python matplotlib 中格式化损坏的 y 轴

我正在 matplotlib 中处理一个相当复杂的条形图它包含来自多个源的摘要数据每个源都沿 x 轴标记 y 轴上有一系列结果许多结果都是异常值我尝试使用断开的 y 轴来显示这些结果而不会使用以下组合来扭曲整个图表这个方法 h
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在
Flask-SQLAlchemy：如何有条件地插入或更新行

我的应用程序使用 Flask Flask SQLAlchemy Flask WTF 和 Jinja2 的组合在当前的版本中我有一个设置表该表只有一条记录和一个字段最初该表包含零条记录我想要实现的是鉴于数据库中不存在任何条目则显
连接字符串：两个字符串列表的“乘法”[重复]

这个问题在这里已经有答案了对于字符串列表将乘法运算定义为连接 l1 aa bb cc l2 11 22 l3 l1 op l2 预期输出 l3 aa11 aa22 bb11 bb22 cc11 cc22 我们可以简单地使用 for l
App Engine、PIL 和叠加文本

我正在尝试在 GAE 上的图像上覆盖一些文本现在他们公开了 PIL 库这应该不是问题这就是我所拥有的它有效但我不禁认为我应该直接写入背景图像而不是创建单独的覆盖图像然后合并我可以用吗Image frombuffer http
为什么这个多处理代码会失败？ [复制]

这个问题在这里已经有答案了 def sample pass Process target sample start Process target sample start 上面的代码失败并出现错误已尝试在当前进程之前启动新进程进程已完成

随机推荐

华为OD机试 - 字符个数统计（C++ & Java & JS & Python）

目录描述输入描述输出描述示例1 示例2 C python Java 描述编写一个函数计算字符
linux AIO （异步IO）那点事儿

在高性能的服务器编程中 IO 模型理所当然的是重中之重需要谨慎选型的对于网络套接字我们可以采用epoll 的方式来轮询尽管epoll也有一些缺陷但总体来说还是很高效的尤其来大量套接字的场景下但对于Regular File 来说
机器学习中的方差与偏差

方差与偏差的定义方差不同的训练数据集训练出的模型输出值之间的差异偏差用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异方差与偏差的数学公式首先以回归为例模型的期望预测指针对不同数据集D 模型对样
（三）STM32基础——GPIO介绍

目录 GPIO简介 GPIO基本结构 GPIO位结构输入部分输出部分推挽输出模式开漏输出编辑开漏复用输出编辑八种输入输出模式浮空上拉下拉输入编辑模拟输入开漏推挽输出复用开漏复用推挽输出 GPIO寄存器 GP
【Spark ML】第 3 章：监督学习

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
【论文精读】The Missing Link: Finding label relations across datasets

一背景概要和之前其他论文工作不同的是论文的主要目的是探究不同数据集间标签的关系而不是将其合并论文中提到的关系是identity parent child overlap 为了探究这些关系提出了几种方法基于language 基
一文实现：在python中调用matlab程序，保姆级安装windows环境下的matlab.engine教程

一前言我最近在做一个基于图像融合的目标检测工程我经常用matlab去研究和创新新型的图像融合算法因为matlab有着python所不可比拟的数据可视化功能和大量的滤波分解框架包在目标检测等涉及到神经网络的程序编写上 python又
机器学习

学习目标了解什么是EM算法知道极大似然估计知道EM算法实现流程一初识EM算法 EM算法也称期望最大化 Expectation Maximum 简称EM 算法它是一个基础算法是很多机器学习领域算法的基础比如隐式马尔科夫算法 H
2、TCP、多进程并发、多线程并发（linux网络编程）

三次握手和四次挥手的过程都是在内核实现的三次握手通信的时候不再需要SYN标识位了只有在请求连接的时候需要SYN标识位传输数据的时候的随机序号seq就是最近一次对方发送给自己的ACK的随机序号值而发给对方的ACK就是上次刚刚发给对方
JDK安装配置教程

JDK简介 Java Development Kit JDK 是 Sun 公司已被 Oracle 收购针对 Java 开发员的软件开发工具包自从 Java 推出以来 JDK 已经成为使用最广泛的 Java SDK Software d
Windows10下安装Git

Git是一个开源的分布式版本控制系统可以有效高速的处理从很小到非常大的项目版本管理具体安装步骤如下第一步先从官网下载最新版本的Git 官网地址 https git scm com downloads 点击上图中表示的地方进行下载
如何修改安卓系统为自己的云服务器,安卓手机改装云服务器

安卓手机改装云服务器内容精选换一换本节操作介绍华为云上云服务器的跨账号跨区域迁移建议采用镜像迁移方式服务器迁移的常见场景与常用的迁移方式请参考迁移的背景知识跨账号跨区域迁移的方法请参考方案介绍常见的服务器迁移场景包括物理服务器与
【论文精读】Grounded Language-Image Pre-training（GLIP）

一背景 https arxiv org abs 2112 03857 https github com microsoft GLIP 这篇论文做的任务是phrase grounding 属于visual grounding的一种 phra
MySQL 修改默认值

alter TABLE tableName alter COLUMN columnName set default defaultValue
电阻式湿度传感器原理

电阻式湿度传感器是利用湿敏元件的电气特性如电阻值随湿度的变化而变化的原理进行湿度测量的传感器湿敏元件一般是在绝缘物上浸渍吸湿性物质或者通过蒸发涂覆等工艺制各一层金属半导体高分子薄膜和粉末状颗粒而制作的在湿敏元件的吸湿和脱湿过
大模型应用落地实践：2大路径、3大痛点、5大革命、6大预判！

省时查报告专业及时全面的行研报告库省时查方案专业及时全面的营销策划方案库免费下载 2023年8月份全网热门报告合集 ChatGPT提词示例让你的ChatGPT聪明100倍超百页干货资料 AI应用的难点痛点与未来 202
双端队列，以顺序表实现双端队列，在队头和队尾添加删除元素

include
opencv之kmeans原理与分割实例

opencv之K Means原理与实现方法 C 和python版本 KMeans原理今天记录一下opencv中kmeans中的原理以及图像分割的一个实例 K Means是对数据进行分类的算法属于无监督学习的一种首先需要确定对图像进行类
关于QT多界面切换

1 新增一窗体文件会自动生成ui1 cpp ui1 h ui1 ui这三个文件可以进行设计绑定ui中的控件与数据模型比如ui gt lable setText string 2 再增加一个UI文件 ui2 也会生成相应的同上 3
原本是list类型，pandas读入后变成str、obejct等其他的类型，恢复成list，并进行数据炸裂explode操作

文章目录本文章拟解决问题不是这些问题请绕路一需求二操作步骤 1 从数据库中读入数据读入的原始数据如图 2 将数据炸裂将JSON列表拆分一个JSON对象一行 1 具体的代码过程踩坑因为pandas读入数据将 JSON列