Pandas 将 groupby 之后的值计数扩展为列

2024-03-13

作为特征工程的一部分，我想使用 groupby 之后的列计数作为模型的特征，这是我尝试过的

>>> import pandas as pd
>>> from collections import Counter
>>> df = pd.DataFrame({'col1':['a','b','a','c','a','b'],'col2':['val1','val2','val2','val1','val2','val2'],'col3':['val3','val4','val3','val4','val3','val4']})
>>> df
   col1  col2  col3
0    a  val1  val3
1    b  val2  val4
2    a  val2  val3
3    c  val1  val4
4    a  val2  val3
5    b  val2  val4
>>> test = df.groupby('col1').agg(list)
                    col2                col3
col1
a     [val1, val2, val2]  [val3, val3, val3]
b           [val2, val2]        [val4, val4]
c                 [val1]              [val4]
>>> test['col2'] = test['col2'].apply(lambda x: Counter(x))
>>> test['col3'] = test['col3'].apply(lambda x: Counter(x))
>>> test
                        col2         col3
col1
a     {'val1': 1, 'val2': 2}  {'val3': 3}
b                {'val2': 2}  {'val4': 2}
c                {'val1': 1}  {'val4': 1}

稍后我可以将字典扩展为单独的列，因此最终输出将是：

>>> final = pd.concat([test.drop(['col2'], axis=1), test['col2'].apply(pd.Series)], axis=1)
>>> final = pd.concat([final.drop(['col3'], axis=1), final['col3'].apply(pd.Series)], axis=1)
   val1 val2 val3 val4
a  1.0  2.0  3.0  NaN
b  NaN  2.0  NaN  2.0
c  1.0  NaN  NaN  1.0

我觉得有一个更简单的解决方案，感谢任何帮助。

就在这里，melt https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.melt.html+crosstab https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html:

df2 = df.melt(id_vars='col1', value_name='count')
pd.crosstab(df2['col1'], df2['count'])

output:

count  val1  val2  val3  val4
col1                         
a         1     2     3     0
b         0     2     0     2
c         1     0     0     1

如果你想NaN:

df3 = pd.crosstab(df2['col1'], df2['count'])
df3.mask(df3.eq(0))

output:

count  val1  val2  val3  val4
col1                         
a       1.0   2.0   3.0   NaN
b       NaN   2.0   NaN   2.0
c       1.0   NaN   NaN   1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

DataFrame

pandasgroupby

Pandas 将 groupby 之后的值计数扩展为列的相关文章

Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np
用于从深层嵌套列表/元组中提取元素的递归函数

我想编写一个从深层嵌套元组和列表中提取元素的函数假设我有这样的东西 l THIS THAT a b c THAT d e f 我想要一个没有这个和那个的简单列表 list a b c d e f 这是我到目前为止所拥有的 def
Geopandas 数据框指向多边形

我有一个 geopandas 数据框由 id 和由 2D 点填充的几何列组成我想连接每个唯一 id 的点来创建一个多边形以便我的新数据框将多边形作为其几何形状我的代码目前看起来像这样 polygons geopandas GeoDa
时间戳相减必须具有相同的时区或没有时区，但它们都是 UTC

有一些问题解决了相同的错误TypeError Timestamp subtraction must have the same timezones or no timezones但没有一个面临与此相同的问题我有 2 个 UTC 时间戳在
如何获取所有数字列（嵌套与否）的“.describe()”统计信息？

获取数据帧或列表或数组中任何列的简单描述性统计数据的最佳方法是什么无论是否嵌套一种高级 df describe 还包括带有数值的嵌套结构就我而言我有一个包含许多列的数据框有些列的每一行都有一个数字列表在我的例子中是时间序列结
为 pandas 系列的每个值分配百分位数

是否有直接开箱即用的方法为 pandas 系列的每个值分配百分位数我通过排名和重新调整来实现此计算如下所示 values pd Series np random normal 0 1 100 percentiles values ran
Pandas：根据其他列值有条件地替换值

我有一个数据框 df 如下所示 environment event time 2017 04 28 13 08 22 NaN add rd 2017 04 28 08 58 40 NaN add rd 2017 05 03 07 59 35
Linux 上的 Python 3.6 tkinter 窗口图标错误

我正在从 Python GUI 编程手册学习 Python GUI 某项任务要求我通过将以下代码添加到我的配方中来更改窗口图标 Change the main windows icon win iconbitmap r C Python3
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Python 中 eval("input()") 和 eval(input()) 之间的区别

我正在尝试以下功能 x eval input 输入为 123 x 的类型也是int 它工作正常 In 22 x eval input enter enter 123 In 24 print type x
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
在 DataFrame 的切片副本上设置值[重复]

这个问题在这里已经有答案了我有一个小数据框说这个 Mass32 Mass44 12 0 576703 0 496159 13 0 576658 0 495832 14 0 576703 0 495398 15 0 576587 0 49
防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
AttributeError：模块“pandas”没有属性“read_csv”Python3.5

我已经成功使用pandas read csv很久以来当我尝试读取 csv 文件时突然开始出现错误 df pd read csv file csv encoding utf 8 错误是 AttributeError module pand
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
计算网页内的字数

我需要使用 python3 计算网页内的单词数我应该使用哪个模块网址库这是我的代码 def web f urllib request urlopen https americancivilwar com north lincoln h
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
使用 asyncio 时应该如何创建属性？

在创建使用 asyncio 的类时我发现自己处于属性 getter 需要进行 io 操作的情况因此该函数应该是一个协程然而等待房产的感觉却很不寻常这是我的意思的一个最小的例子该代码有效并且可以运行 import asyncio

随机推荐

如何在 glob() 模式中编写“或”？

glob glob 不使用正则表达式它使用 Unix 路径扩展规则我如何在 glob 中模拟这个正则表达式 jpg png 很好glob你应该这样做 lst glob glob jpg glob glob png
SVN反向合并？

我的 SVN 存储库在修订版 497 时非常完美我执行了几次错误的提交因此现在它处于修订版 HEAD 我发现要回滚您应该使用如下命令 svn merge r HEAD 497 在工作目录中并且工作目录位于 HEAD 修订版但这是正
PHP 从字符串中获取搜索词数组

有没有一种简单的方法来解析字符串以查找包括否定词在内的搜索词 this that the other thing but not this positive 会变成 array positive gt array this the othe
pytz 在 Mac 上安装

Django 通知我 ImportError 没有名为 pytz 的模块但是当我使用 pip 安装它时我得到以下结果 Requirement already satisfied use upgrade to upgrade pytz i
MySQL通过数组中的键搜索json值

我有一个 JSON 对象数组想要返回一个特定的节点为了简化我的问题假设数组可能如下所示 Race Orc strength 14 Race Knight strength 7 例如我想知道骑士的实力功能JSON SEARCH ht
通过函数打开流

我需要有关不可复制性质的帮助 io f streams 我需要提供一个黑客包装fstreams 以便在 Windows 上处理文件名中包含 unicode 字符的文件为此我设计了一个包装函数 bool open ifstream ist
ImportError：在 apache 上安装 django mod_wsgi 配置中没有名为 django.core.handlers.wsgi 的模块

我尝试安装 django 以与 apache 和 mod wsgi 一起使用但出现此错误 ImportError No module named django core handlers wsgi 我读到这可能是用户错误在控制台 ssh
从 Redis 中删除会话 (Django)

我使用 Django 和 Redis 作为会话引擎也是 Celery 但那是别的东西它运行完美我可以看到速度的提高 SESSION ENGINE django contrib sessions backends cached db 我
需要哪些 Visual C++ DLL？

我不喜欢必须为使用 Microsoft 编译器编译的程序分发安装程序我更喜欢使用与可执行文件打包在同一目录中的 DLL 那么 MSVC 2010 所需的 DLL 是什么没有一个简单的答案因为这取决于您在程序中构建的依赖项您可能想使用
在 Laravel 5 或 4.3 中包含 CSS

TL DR 在 Laravel 5 中链接到样式表的正确方法是什么背景我使用 Laravel 4 3 5 的开发版本因为我想使用 Socialite 从一开始就使用它进行开发是有意义的我在从 4 2 传输模板时遇到问题我已将刀片布
跟踪 python：仅包含一些文件

我知道我可以用它来跟踪命令执行 python m trace t script py 但我想减少输出只应显示我的 src pip install e 中的文件我怎样才能做到这一点如果您正在运行脚本bash你可以使用类似的东西 pyth
模块“tensorflow.python.keras.api._v2.keras.layers”没有属性“CuDNNLSTM”

当我写作时tf keras layers LSTM 我收到警告 Note that this layer is not optimized for performance Please use tf keras layers CuDNNLS
PHP 有没有办法在 foreach 中重新启动循环，或更改 switch 中的测试值？

如果我正在循环一个数组并且在其中一个循环的中间我发现一些小问题改变一些东西并且需要重试有没有办法跳回到循环顶部而不从数组中获取下一个值我怀疑这是否存在但它会是一些关键字例如continue or break 事实上它很像c
C# 的 CSV 解析器/阅读器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
将 astropy.table.columns 转换为 numpy 数组

我想绘制points points np random multivariate normal mean 0 0 cov 0 4 9 9 10 size int 1e4 print points 2 50584156 2 77190372
PostgreSQL 没有自增功能？

我有一个用 Java 编写的测试应用程序用于在 MySQL PostgreSQL Oracle 和 Firebird 数据库除其他外中创建索引和非索引表难道只是 PostgreSQL 不允许自动增量功能的情况吗如果没有拥有索引列
等待 alamofire 完成获取请求并创建对象[重复]

这个问题在这里已经有答案了我在等待一个对象制作完成后遇到问题然后我希望更新我的用户界面如果我运行该函数它将立即出现索引错误因为它试图从第一个对象中获取一些文本而该对象尚不存在任何人都可以帮助我吗 func getMovieDa
Android 中的身份验证

我正在使用客户端 Android 应用程序开发基于 Django 的 Web 应用程序在 Web 端身份验证是借助存储在 cookie 中的会话 ID 完成的默认的 Django 实现但我无法弄清楚如何在 Android 客户端中对
React Typescript 故事书通过 onChange 回调实现自定义输入组件，然后将 State 值返回到输入

我目前正在用故事书实现一个 React 定制输入组件我希望实现的是这个定制的输入组件将需要几个参数其中一个参数是onChangeInput 稍后它将负责为输入值设置状态值下面是我的主要输入组件实现输入 tsx import Re
Pandas 将 groupby 之后的值计数扩展为列

作为特征工程的一部分我想使用 groupby 之后的列计数作为模型的特征这是我尝试过的 gt gt gt import pandas as pd gt gt gt from collections import Counter gt g

Pandas 将 groupby 之后的值计数扩展为列

Pandas 将 groupby 之后的值计数扩展为列 的相关文章

随机推荐

热门标签

Pandas 将 groupby 之后的值计数扩展为列的相关文章