Pandas 按列将 CSV 拆分为多个 CSV（或 DataFrame）

2023-11-23

我对一个问题感到非常困惑，如果有一些帮助或提示，我将不胜感激。

问题：我有一个 csv 文件，其中有一列可能有多个值，例如：

Fruit;Color;The_evil_column
Apple;Red;something1
Apple;Green;something1
Orange;Orange;something1
Orange;Green;something2
Apple;Red;something2
Apple;Red;something3

我已将数据加载到数据框中，并且需要根据“The_evil_column”列的值将该数据框拆分为多个数据框：

df1
Fruit;Color;The_evil_column
Apple;Red;something1
Apple;Green;something1
Orange;Orange;something1

df2
Fruit;Color;The_evil_column
Orange;Green;something2
Apple;Red;something2

df3
Fruit;Color;The_evil_column
Apple;Red;something3

阅读了一些帖子后，我更加困惑，我需要一些关于此的提示。

您可以生成 DataFrame 的字典：

d = {g:x for g,x in df.groupby('The_evil_column')}

In [95]: d.keys()
Out[95]: dict_keys(['something1', 'something2', 'something3'])

In [96]: d['something1']
Out[96]:
    Fruit   Color The_evil_column
0   Apple     Red      something1
1   Apple   Green      something1
2  Orange  Orange      something1

或数据框列表：

In [103]: l = [x for _,x in df.groupby('The_evil_column')]

In [104]: l[0]
Out[104]:
    Fruit   Color The_evil_column
0   Apple     Red      something1
1   Apple   Green      something1
2  Orange  Orange      something1

In [105]: l[1]
Out[105]:
    Fruit  Color The_evil_column
3  Orange  Green      something2
4   Apple    Red      something2

In [106]: l[2]
Out[106]:
   Fruit Color The_evil_column
5  Apple   Red      something3

UPDATE:

In [111]: g = pd.read_csv(filename, sep=';').groupby('The_evil_column')

In [112]: g.ngroups   # number of unique values in the `The_evil_column` column
Out[112]: 3

In [113]: g.apply(lambda x: x.to_csv(r'c:\temp\{}.csv'.format(x.name)))
Out[113]:
Empty DataFrame
Columns: []
Index: []

将产生3个文件：

In [115]: glob.glob(r'c:\temp\something*.csv')
Out[115]:
['c:\\temp\\something1.csv',
 'c:\\temp\\something2.csv',
 'c:\\temp\\something3.csv']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

pandas

csv

pandasgroupby

Pandas 按列将 CSV 拆分为多个 CSV（或 DataFrame）的相关文章

Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
(de)从 CSV 序列化为对象（或者最好是类型对象的列表）

我是一名 C 程序员试图学习 C 似乎有一些内置的对象序列化但我在这里有点不知所措我被要求将测试数据从 CSV 文件加载到对象集合中 CSV 比 xml 更受青睐因为它更简单且更易于人类阅读我们正在创建测试数据来运行单元测试该集
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

C# 正确格式化（缩进、对齐）C#

我们有一个代码生成器munges给定数据库的模式用于自动化我们内部的 n 层架构输出是各种 C 部分类每个文件一个在处理所有字符串的代码中我们尝试尽可能地控制缩进和格式但当您在 Visual Studio 中打开文件时格式总是
逐行读取文件并分割值

我需要读取一个txt文件其组成如下 AA 1000 AA 320009 999999 AA 1011 AA 320303 111111 对于每个读取的行我需要用将其分割以到达第一回合 test 0 AA 1000 AA 320009
调用 savechanges 时实体框架复制

我首先使用entityframework 5代码我有一个这样的模型 class Product public Product Fabrics new BindingList
如何在Spring 3.0应用程序中配置Hibernate统计信息？

我们如何配置以便在基于 Spring MVC 的 Web 应用程序中通过 JMX 获取 Hibernate 统计信息有没有更好的方法来跟踪 Hibernate 性能 Set hibernate generate statistics to
Cakephp 2.0 使用电子邮件而不是用户名进行身份验证

在我看来我有在我的应用程序控制器中 public components array
ZF2中同一模块下的多个命名空间

我在同一模块下配置多个命名空间类时遇到问题例如我有一个名为 Account 的模块其中我想包含所有与帐户相关的类公司 accounts 用户 users 外部 api api 等模块结构看起来像这样 Account Module
Base64 图像不显示在 RDLC 报告的渲染 PDF 上

我正在尝试使用参数 CustomerSign 在 RDLC 报告中我正在从报告中渲染 PDF 文件并且看到 PDF 文件我已配置图像属性如下选择图像源 Database 使用该字段 Convert FromBase64String
为什么 Objects.hash() 对于相同的输入返回不同的值？

我运行了以下脚本 java 它给了我奇怪的结果有谁可以帮忙解释一下吗 import java util Objects import org apache log4j Logger public class CacheTester pri
-D MACRO 和 #define MACRO 的优先级

如果我有一个C文件 foo c 虽然我已经给出了 DMACRO 1作为编译的命令行选项但是如果在头文件中我也有 define MACRO 2 其中哪一个会优先我正在假设您正在做什么但是如果您想从命令行为该宏提供非默认值请尝试对宏定
多线程访问文件

我们有一个多线程java程序多个线程将写入一个文件一个线程将从该文件中读取我正在寻找一些设计想法是否需要同步文件通道理论上是线程安全的来自javadoc 文件通道可供多个并发线程安全使用这 close 方法可以随时调用具体由
读取套接字时Java中断线程[重复]

这个问题在这里已经有答案了可能的重复如何立即终止阻塞在套接字IO操作上的线程我有一个客户端在线程中运行想要从 Java 中的套接字读取数据但在阅读时也许我想杀死线程所以我interrupt它但是套接字的读取方法会抛出异常吗I
如何在 jQuery 中循环遍历数组？

我正在尝试循环遍历一个数组我有以下代码 var currnt image list 21 32 234 223 var substr currnt image list split array here 我正在尝试从数组中获取所有数据有
C# - 捕获鼠标光标图像

背景我正在编写一个屏幕捕获应用程序我的代码基于此项目 http www codeproject com KB cs DesktopCaptureWithMouse aspx display Print 请注意代码还捕获了鼠标光标这对
PHP iOS AES 加密

我在尝试使用 AES 加密在 PHP 和我的 iOS 应用程序之间进行通信时遇到了问题到目前为止我已经考虑了两种实现方法第一个是使用 OpenSSL 在 iOS 方面我以模仿此处显示的代码的方式实现 http saju net in
如果向下滚动经过它，则有一个 div 紧贴在屏幕顶部[重复]

这个问题在这里已经有答案了我有一个 div 当我的页面首次加载时它距离顶部大约 100px 它包含页面的一些按钮等当用户滚动经过它时我希望 div 跟随用户因为它附加到屏幕顶部当用户返回到页面顶部时我希望它回到原来的位置 V
如何使用 CSS 删除没有 html 标签的字符串

我需要删除没有的字符串html tag 例如 div class A a href class link keep this a and i want to remove this div 我可以只使用 css 来做到这一点吗也许你可以使
Eclipse + Maven + JavaServer Faces -> ClassNotFoundException：StartupServletContextListener

Summary 当我尝试从 Eclipse 中在 Tomcat 7 0 上运行 JSF 2 0 应用程序时出现以下异常 Problem SEVERE Error configuring application listener of
消除解析器精神规则中的左递归 x3

我目前陷入了一条规则我试图使用 boostspirit x3 来解析这是我要解析的 EBNF 使用 Spirit 中的运算符作为列表 type class type lambda type lambda type more arg l
“NoMethodError：[：not（.block-layered-nav）]：Array的未定义方法‘特异性’”

这是对这篇文章的补充无法在 Magento CE 1 9 中编译 rwd 皮肤 SCSS Windows 8 1 PowerShell Compass 1 0 1 Polaris Sass 3 4 6 Selective Steve ru
Pandas 按列将 CSV 拆分为多个 CSV（或 DataFrame）

我对一个问题感到非常困惑如果有一些帮助或提示我将不胜感激问题我有一个 csv 文件其中有一列可能有多个值例如 Fruit Color The evil column Apple Red something1 Apple Gree

Pandas 按列将 CSV 拆分为多个 CSV（或 DataFrame）

Pandas 按列将 CSV 拆分为多个 CSV（或 DataFrame） 的相关文章

随机推荐

热门标签

Pandas 按列将 CSV 拆分为多个 CSV（或 DataFrame）的相关文章