pandas groupby 一次用于多个数据帧/文件

2024-03-01

我有多个巨大的 tsv 文件，我正在尝试使用 pandas 处理它们。我想按“col3”和“col5”分组。我试过这个：

import pandas as pd
df = pd.read_csv('filename.txt', sep = "\t")
g2 = df.drop_duplicates(['col3', 'col5'])
g3 = g2.groupby(['col3', 'col5']).size().sum(level=0)
print g3

到目前为止它工作正常并打印如下输出：

yes 2
no  2

我希望能够聚合多个文件的输出，即能够一次按所有文件中的这两列进行分组，并打印一个公共输出以及“是”或“否”出现的总数或者无论该属性是什么。换句话说，我现在想同时对多个文件使用 groupby 。如果文件没有这些列之一，则应跳过该文件并转到下一个文件。

这是一个很好的用例blaze http://blaze.pydata.org.

这是一个使用来自nyctaxi 数据集 http://www.andresmh.com/nyctaxitrips/。我特意将一个大文件分成两个文件，每个文件 1,000,000 行：

In [16]: from blaze import Data, compute, by

In [17]: ls
trip10.csv  trip11.csv

In [18]: d = Data('*.csv')

In [19]: expr = by(d[['passenger_count', 'medallion']], avg_time=d.trip_time_in_secs.mean())

In [20]: %time result = compute(expr)
CPU times: user 3.22 s, sys: 393 ms, total: 3.61 s
Wall time: 3.6 s

In [21]: !du -h *
194M    trip10.csv
192M    trip11.csv

In [22]: len(d)
Out[22]: 2000000

In [23]: result.head()
Out[23]:
   passenger_count                         medallion  avg_time
0                0  08538606A68B9A44756733917323CE4B         0
1                0  0BB9A21E40969D85C11E68A12FAD8DDA        15
2                0  9280082BB6EC79247F47EB181181D1A4         0
3                0  9F4C63E44A6C97DE0EF88E537954FC33         0
4                0  B9182BF4BE3E50250D3EAB3FD790D1C9        14

Note:这将使用 pandas 自己的分块 CSV 读取器来执行计算。如果您的文件在 GB 范围内，您最好转换为以下格式bcolz http://bcolz.blosc.org/ or PyTables https://pytables.github.io/，因为这些是二进制格式，专为大型文件的数据分析而设计。 CSV 只是具有约定的文本块。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas groupby 一次用于多个数据帧/文件的相关文章

如何在 Python 2.4 CSV 阅读器中禁用引用？

我正在编写一个 Python 实用程序需要解析一个我无法控制的大型且定期更新的 CSV 文件该实用程序必须在仅提供 Python 2 4 的服务器上运行 CSV 文件根本不引用字段值但Python 2 4版本的csv库 http ww
如何在python 2.7.8中将非英文字母的字典写入文件？

这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国在python 2 7 8中当我需要输出
如何将 UPX 与 pyinstaller 一起使用？

如何将 UPX 与 pyinstaller 一起使用我正在关注文档我已经下载了UPX 我的文件如下所示 import csv import selenium import pandas print Hello 然后我运行 pyinsta
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
为什么最简单的 requests_mock 示例在 pytest 中失败？

我有一个特殊的问题requests mock 我想用它pytest测试我的 API 包装器库我尝试过使用requests mock 文档中的第一个示例 http requests mock readthedocs io en latest
如何将 HTML 表格转换为 csv 格式？

是否有 HTML 解析器或某些库可以自动将 HTML 表格转换为 CSV 数据行 Here is http www unix com shell programming scripting 45274 html table csv html
python：UnboundLocalError：赋值前引用的局部变量“open”[重复]

这个问题在这里已经有答案了 def read lines readFileName readfile txt f open readFileName r contents f read and so on read lines 当我运行这个
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
自适应支付 API 错误 580001

我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
进行异步调用时，“yield”在龙卷风中如何工作？

最近我在学习龙卷风简介我遇到了以下代码 class IndexHandler tornado web RequestHandler tornado web asynchronous tornado gen engine def get s
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
返回吃异常

我至少发现了以下行为weird def errors try ErrorErrorError finally return 10 print errors prints 10 It should raise NameError name E
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
如何从 IDLE 命令行运行 Python 脚本？

在 bash shell 中我可以使用 bash 或 source 手动调用脚本我可以在 Python IDLE 的交互式 shell 中做类似的事情吗我知道我可以转到文件 gt gt 打开模块然后在单独的窗口中运行它但这很麻烦
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
PyMC3 和 Theano - 导入 pymc3 后，有效的 Theano 代码停止工作

一些简单的 theano 代码可以完美运行当我导入 pymc3 时停止工作这里有一些片段可以重现错误 Initial Theano Code this works import theano tensor as tsr x tsr ds
Python Pandas：向类 pandas.core.series.Series 添加方法

我想在 Python 中处理时间序列因此 Pandas 的 Series 类非常完美并且有很多有用的方法现在我想添加一些我需要但未实现的方法例如假设我有兴趣添加一个方法该方法将两次一值附加到时间序列中让我们调用该方法appen

随机推荐

更改底层依赖项后 SQL Server 视图显示过时/错误的数据

我们有一个视图称为 X 它是由另外 2 个视图称为 Y 和 Z 调用的基本视图今天我们对视图 X 进行了更改之后视图 Y 和 Z 开始带回不正确的数据当我们在 Management Studio 中运行时SELECT FROM Y
Javascript - 检索对象属性路径[重复]

这个问题在这里已经有答案了我有以下对象 var obj obj foo obj foo bar I want this 给定路径 foo bar 作为字符串我如何检索obj foo bar or obj foo bar 这是一个方法
应用程序首次启动时调用 didReceiveRemoteNotification

我已经实现了 didReceiveRemoteNotification 方法它工作并显示一个视图控制器以及传递的通知数据仅当应用程序已在前台或在后台运行时此功能才有效但是当应用程序未运行并且用户单击通知时应用程序会启动但看起来
进程监控 CreateProcessNotifyRoutineEx

我正在开发一个用于监视进程创建的驱动程序我编写了一个简单的代码来完成它我用PsSetCreateProcessNotifyRoutineEx 但这行不通我完全遵循微软的帮助在这个链接上 http msdn microsoft com
Boost Beast 在关闭后重新连接 websocket 连接

我正在使用 boost beast 创建 websocket 连接到目前为止它似乎工作正常但我无法弄清楚断开连接后是否应该替换 websocket stream 变量即我有一个变量 boost beast websocket stre
有没有办法在 C 中使用具有常量索引的常量数组作为 switch case 标签？

我有一些常量值和数组定义它们的标签和哈希码例如 define LABEL A 0 or const int LABEL A 0 define LABEL B 1 define LABEL C 2 define LABEL D 3 cons
获取 Google 表单脚本生成的电子邮件以将数据传输到响应表中

我目前正在尝试设置审批工作流程对于这些事情我还相当初级但到目前为止在示例的帮助下它已经达到了可观的水平可以满足我们的需求我正在使用来自的模板示例使用 Google 脚本和表单进行电子邮件批准 https sites goog
无法删除 S3 存储桶 - 错误未找到数据

我无法摆脱 S3 中的五个桶 AWS 控制台中的每个屏幕都会显示未找到错误数据即概述属性权限管理访问点我无法设置生命周期删除对象的规则但存储桶中从未有过任何内容而且版本控制也从未启用我也尝试过在我的终端中强制它 aws
Qt 4.8 beta 和 Mac OSX Lion，Phonon 错误

成功安装 mac OS 10 7 后我尝试编译我的 qt 4 7 项目我收到了很多不支持的 mac os x 版本的警告因此我决定使用 Qt 4 8 beta 现在所有警告都消失了但是我现在使用 Phonon 时遇到链接器问题
为什么window.width小于媒体查询中设置的视口宽度

我很困惑仍然不知道如何用合适的语言解释这一点到目前为止我已经使用断点并设置了媒体查询使用的断点变量如下所示 menustatictofixed min width 900px breakpoint to ems 设置为 true 我
错误：“...”未命名类型

我有一个工作项目重新安排一些代码后我尝试重新编译我的项目然后奇怪的事情开始发生看一下编译器输出的摘录我正在使用 MinGW G 从 Windows 上的 Eclipse 进行编译 Build of configuration De
术语“Scaffold-DbContext”未被识别为 cmdlet 的名称

我有一个包含两个项目的解决方案一个是主项目第二个是使用 EF Core 10 0 RC2 的项目在第二个项目中我使用这三个命令来安装 EF Core 并运行此 nuget 命令来安装它 Install Package Microso
查找列表列表中项目的部分匹配

我有这样的列表 l 08 00 09 00 60 False 1 0 09 00 10 00 60 False 0 3 12 00 13 00 60 False 2 0 我想检查是否有列表l有一个元素但我不知道最后一个元素的值float 我
如何在 R 中使用 readHTMLTable 读取注释掉的 HTML 表

过去我已经能够使用 R 中的 readHTMLTable 来获取一些足球统计数据当今年再次尝试这样做时表格没有显示即使它们在网页上可见这是一个例子 http www pro football reference com boxsc
从控制器构造函数中的 URL 获取参数

我需要编写一些代码来在项目数据库中查找 ID 用户耦合到一个项目并且所有项目都与其他对象例如会话有很多连接现在我需要在运行任何操作之前检查尝试访问会话的用户是否连接到与会话连接的同一项目为此我想在操作上使用属性 MVC 创建
MySQL：仅在满足条件时更新字段

是否可以在 MySQL 上执行 UPDATE 查询仅在满足特定条件时才更新字段值像这样的事情 UPDATE test SET CASE WHEN true THEN field 1 END WHERE id 123 换句话说字段仅在
maven antrun 插件

我的 pom 中有以下内容
React Hooks 中的 Push 方法（useState）？

如何将元素推送到 useState 数组 React hook 中这是反应状态下的旧方法吗或者新的东西 E g setState 推送示例 https stackoverflow com questions 41052598 react
默认情况下，Spring Boot 期望视图存储在哪里？

我正在尝试使用 Spring Boot 重写我的配置繁重的普通 Spring MVC 项目我使用 Spring Boot Initiaizer 在 IntelliJ 中启动了一个全新的 Spring Boot 项目并且我将采用基于 Ja
pandas groupby 一次用于多个数据帧/文件

我有多个巨大的 tsv 文件我正在尝试使用 pandas 处理它们我想按 col3 和 col5 分组我试过这个 import pandas as pd df pd read csv filename txt sep t g2 df

pandas groupby 一次用于多个数据帧/文件

pandas groupby 一次用于多个数据帧/文件 的相关文章

随机推荐

热门标签

pandas groupby 一次用于多个数据帧/文件的相关文章