pandas：删除重复行，同时保留虚拟变量值

2024-01-04

我有以下数据框示例：

child_id   feature_1   feature_2   feature_3   feature_4   feature_5
   10          1           0           0          0            0
   10          0           0           1          0            0
   10          0           1           0          0            0
   10          0           0           0          1            0
   20          0           0           0          0            1
   20          1           0           0          0            0
   20          0           1           1          0            0
   20          0           0           0          0            0

但是，我想要这个堆叠的数据框，这样子 ID 就不会重复多次：

child_id   feature_1   feature_2   feature_3   feature_4   feature_5
   10          1           1           1           1           0
   20          1           1           1           0           1

由于每一行都不同，我不能简单地删除重复项。有任何想法吗？非常感谢！

child_id  = [10,10,10,10,20,20,20,20]  
feature_1 = [1,0,0,0,0,1,0,0]  
feature_2 = [0,0,1,0,0,0,1,0]
feature_3 = [0,1,0,0,0,0,1,1]  
feature_4 = [0,0,0,1,0,0,0,0]
feature_5 = [0,0,0,0,1,0,0,0]

import pandas as pd
df = pd.DataFrame(zip(child_id,feature_1,feature_2,feature_3,feature_4,feature_5),columns=['A','B','C','D','E','F'])
df

df.groupby('A').max()

 #10       1    1   1   1   0
 #20       1    1   1   0   1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

DataFrame

stack

pivottable

pandas：删除重复行，同时保留虚拟变量值的相关文章

为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
Matplotlib 动画迭代 pandas 数据帧列表

我有一个 pandas DataFrame 列表每个数据框有 2 列到目前为止我有一个函数当给定索引 i 时它会采用与索引 i 相对应的框架并根据第二列的数据绘制第一列的数据图 list f0 f1 f2 f3 f4 f5 f6
带圆角的 Seaborn 条形图

我正在尝试绘制一些条形图但想控制角的圆度我尝试按照堆栈问题中提供的答案进行操作Matplotlib 中带圆角的条形图 https stackoverflow com questions 58425392 bar chart with r
在 Pandas Dataframe 中保存其他属性

我记得在 MatLab 时代使用结构化数组您可以将不同的数据存储为主结构的属性就像是 a a A magic 10 a B magic 50 etc where a A and a B彼此完全独立允许您在其中存储不同类型a并根据需要对
Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
将一个时间序列插入到 pandas 中的另一个时间序列中

我有一组定期测量的值说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

我想绘制一个 pandas 系列其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
在seaborn barplot之前隐藏文本[重复]

这个问题在这里已经有答案了我正在尝试使用seaborn打印条形图 plt figure figsize 16 6 g sns barplot x A y B data df g set xticklabels g get xticklab
获取 Pandas groupby 对象中的比率

我有一个如下所示的数据框我想为每个州创建另一个名为 engages percent 的列它基本上是唯一engages count的数量除以每个特定州的user count 我尝试执行以下操作 def f x engaged percen
Python + Pandas 中的差异

我正在尝试执行差异中的差异 https en wikipedia org wiki Difference in differences 使用面板数据和固定效应使用 Python 和 Pandas 进行分析我没有经济学背景我只是想过滤数
对 Python DataFrame 进行子集化

我正在从 R 过渡到 Python 我刚刚开始使用 Pandas 我有一个可以很好地子集化的 R 代码 k1 lt subset data Product p id Month lt mn Year yr select c Time Pro
具有条件的重复行 pandas dataframe python

我的数据框有问题我的 df 是 product power brand product 1 3 x 1500W brand A product 2 2x1000W 1x100W product 3 1x1500W 1x500W brand
使用 Pandas 和 Group By 绘制堆叠直方图

我正在使用如下所示的数据集 Gender Height Width Male 23 4 4 4 Female 45 4 4 5 我想可视化高度和宽度的堆叠直方图我希望每个图有两个堆叠的直方图每个性别一个这是文档中的堆叠直方图如果存在
将 pandas 数据框中的多列更改为日期时间

我有一个 13 列和 55 000 行的数据框我正在尝试将其中 5 行转换为日期时间现在它们返回类型对象我需要转换这些数据以进行机器学习我知道如果我这样做 data birth date pd to datetime data b
MySQL 存储过程、Pandas 和“执行多个语句时使用 multi=True”

注意正如下面 MaxU 所建议的该问题特定于 mysql connector 如果您使用 pymysql 则不会出现该问题希望这可以帮其他人省去一些麻烦使用Python Pandas 和mySQL 根本无法让存储过程返回结果更不用
Pandas：根据其他多级列对最里面的列进行分组排序

考虑下面的 df In 3771 df pd DataFrame A a 11 B b 11 C C1 C1 C2 C1 C3 C3 C2 C3 C3 C2 C2 D D1 D2 D1 D3 D3 D2 D4 D4 D1 D2 D3 E v

随机推荐

多关系无法在 Play 框架的映射表中保存映射的 id

我正在使用 play2 2 1 并尝试在之间创建 ManyToMany 关系Jobads and 职位类别 models My 工作任务 java package models Entity public class Jobads exte
“找不到资源...”尝试编译空白的跨平台 Xamarin 应用程序

我正在使用 VS Community 2015 更新 3 我通过 VS 安装程序安装了 Xamarin v4 2 然后通过 Xamarin 安装程序更新到 4 2 1 60 我创建了一个新的跨平台项目 Blank App Xamarins
使用循环求和

我的目标编写一个应用程序使用 while 循环从用户获取 20 个输入并显示所有这些数字的总和我知道如何执行 while 循环但我不知道如何获得所有这些数字的总和因为变量是相同的这是我到目前为止所拥有的 Scanner Numb
Android Studio：如何增加logcat文本的大小？

有人知道在哪里可以增加 logcat 文本的大小吗主设置里没有这个设置转到文件 gt 设置 gt 编辑器 gt 颜色和字体 gt 控制台字体 Though to change the saved settings you will ha
c89：将 int 转换为 void* 并返回

首先这不是一个骗局将 int 转换为 void 指针并再次返回 int 是否安全 https stackoverflow com questions 3568069 is it safe to cast an int to void p
我违背了我的诺言

所以我在学习如何 Promise 方面遇到了最困难的时期我在用着bluebird https github com petkaantonov bluebird https github com petkaantonov bluebird
DialogFragment 上的 Up ActionBar 操作

我有一个DialogFragment使用全屏样式setStyle STYLE NORMAL R style Theme App The DialogFragment显示良好但向上动作 homeAsUpActionBar 上的操作不起作用
学说中的 Dql 选择 vs sql 查询

与本机 sql 相比在学说中的 select 语句中使用 DQL 有什么好处 e g qb em gt getRepository repositoryname gt createQueryBuilder r qb gt someDqlC
构建步骤“Windows PowerShell”将构建标记为失败，为什么？

以下是 Jenkins 中运行的三个 PowerShell 命令以及构建结果为什么会失败哪个命令可能会失败我读过这篇文章执行 Shell 如何何时在 Jenkins 中将构建标记为失败 https stackoverflow co
在实例之间共享存储

我正在使用 Engine Yard AppCloud 服务如果我希望我的实例共享存储例如用于文件上传下载将 S3 集成构建到我的应用程序中是我唯一真正的选择吗目前应用程序期望使用 filsystem 但看起来多个实例无法挂载相同
如何在滚动后放置窗口的div中心[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个 div 即使在滚动后它也应该位于窗口的中心如何实现 http www flickr com photos 4169535
EJB工厂类

我正在尝试创建一个 EJB 工厂类其工作方式如下您有一个方法该方法将 EJB 的类作为参数然后它检查 EJB 是否具有远程接口如果没有抛出异常以及是否有远程接口确实如此它返回相关的 EJB 下面的代码正是这样做的然而它返
参数错误：音频缓冲区并非到处都是有限的

在 Urban Sound Dataset 的声音文件之一上使用以下代码时 s r librosa load train filename 7543 tonnetz librosa feature tonnetz y librosa eff
锚元素的路径名在 Rhino 中使用 env.js 返回未定义

我遇到过an issue https github com guardian sbt jasmine plugin issues 17我相信这源于 Rhino 中锚标记的实现虽然我正在利用env js http www envjs com
使用 dplyr 通过多个函数传递列名

我编写了一个简单的函数来创建百分比表dplyr library dplyr df tibble Gender sample c Male Female 100 replace TRUE FavColour sample c Red Blue
如何设置 bootstrap col-lg-* 类的样式？

我是 Less 的初学者我想在任何地方写一个像 Column div 这样的字符串div with col lg 任意数字 or col md 任意数字 class 例如像这样的代码 col lg before content Colum
getSupportActionBar() NullPointerException

In onCreate 活动方法我有这个代码ToolBar toolbar Toolbar findViewById R id tool bar setSupportActionBar toolbar getSupportActionBar
JasperReports PdfServlet 将报告保存为 PDF - 如何设置浏览器的文件名以提示用户？

Stack JSF PrimeFaces on JBoss AS with 贾斯珀报告我一直在使用 JasperReports 以 PDF 格式导出的模式过程分为三个步骤 1 从以下路径获取编译好的Jasper报告war 2 放置碧玉印
休眠错误 - 当前事务被中止，命令被忽略直到事务块结束

我的代码有一些问题 private EntityManager entityManager public EntityManager getEntityManager if entityManager null entityManager
pandas：删除重复行，同时保留虚拟变量值

我有以下数据框示例 child id feature 1 feature 2 feature 3 feature 4 feature 5 10 1 0 0 0 0 10 0 0 1 0 0 10 0 1 0 0 0 10 0 0 0 1 0

pandas：删除重复行，同时保留虚拟变量值

pandas：删除重复行，同时保留虚拟变量值 的相关文章

随机推荐

热门标签

pandas：删除重复行，同时保留虚拟变量值的相关文章