如何标记相同的熊猫数据框行？

2024-02-08

我有一个像这样的大熊猫数据框：

log  apple   watermelon  orange  lemon  grapes

1      1         1         yes     0      0
1      2         0         1       0      0
1     True       0         0       0      2
2      0         0         0       0      2
2      1         1         yes     0      0
2      0         0         0       0      2
2      0         0         0       0      2
3     True       0         0       0      2
4      0         0         0       0      2.1
4      0         0         0       0      2.1

如何标记相同的行，例如：

log   apple   watermelon  orange  lemon  grapes   ID

1      1         1         yes     0      0      1
1      2         0         1       0      0      2
1     True       0         0       0      2      3
2      0         0         0       0      2      4
2      1         1         yes     0      0      1
2      0         0         0       0      2      4
2      0         0         0       0      2      4
3     True       0         0       0      2      3
4      0         0         0       0      2.1    5
4      0         0         0       0      2.1    5

我尝试过了：

df['ID']=df.groupby('log')[df.columns].transform('ID')

And

df['personid'] = df['log'].clip_upper(2) - 2*d.duplicated(subset='apple')
df

然而，上面的方法不起作用，因为我确实有很多列。

但它没有给我预期的输出。知道如何对这个数据框进行分组和标记吗？

Given

x = io.StringIO("""log  apple   watermelon  orange  lemon  grapes

1      1         1         yes     0      0
1      2         0         1       0      0
1     True       0         0       0      2
2      0         0         0       0      2
2      1         1         yes     0      0
2      0         0         0       0      2
2      0         0         0       0      2
3     True       0         0       0      2
4      0         0         0       0      2.1
4      0         0         0       0      2.1""")
df2 = pd.read_table(x, delim_whitespace=True)

您可以先使用transform用元组来制作每一行hashable并进行比较，然后使用索引和range创建唯一的 id

f = df2.transform(tuple,1).to_frame()
k = f.groupby(0).sum()
k['id'] = range(1,len(k.index)+1)

最后

df2['temp_key'] = f[0]
df2 = df2.set_index('temp_key')
df2['id'] = k.id
df2.reset_index().drop('temp_key', 1)

    log     apple   watermelon  orange  lemon   grapes  id
0   1       1       1           yes     0       0.0     1
1   1       2       0           1       0       0.0     2
2   1       True    0           0       0       2.0     3
3   2       0       0           0       0       2.0     4
4   2       1       1           yes     0       0.0     5
5   2       0       0           0       0       2.0     4
6   2       0       0           0       0       2.0     4
7   3       True    0           0       0       2.0     6
8   4       0       0           0       0       2.1     7
9   4       0       0           0       0       2.1     7

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

如何标记相同的熊猫数据框行？的相关文章

即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
selenium.common.exceptions.WebDriverException：消息：服务

当我使用 selenium 控制 Chrome 时遇到了麻烦这是我的代码 from selenium import webdriver driver webdriver Chrome When i tried to operate it
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏

随机推荐

.NET Core 捕获中间件中的 Json 反序列化错误

我确信我错过了一些明显的东西是否可以在 NET Core的默认中间件反序列化器中处理JSON反序列化错误我需要确保特定值是 JSON 原语而不是对象数组如果它不是原语我想在请求到达控制器之前终止请求并返回适当的状态代码控制器
Django CharField 没有空字符串

有没有办法制作一个不接受空字符串的 CharField 或 TextField 我正在尝试使用blank False但它不工作 class Foo models Model title models CharField max length
iOS VoiceOver 在更改到下一个元素之前等待元素完成阅读

我有一个按钮可以切换显示的标签 class ViewController UIViewController IBOutlet weak var label UILabel IBOutlet weak var button UIButton
Metal 内核在新款 MacBook Pro（2016 年末）GPU 上运行不正常

我正在开发 macOS 项目该项目使用 Swift 和 Metal 在 GPU 上进行图像处理上周我收到了新的 15 英寸 MacBook Pro 2016 年末并注意到我的代码有一些奇怪的地方应该写入纹理的内核似乎没有这样做经
iOS 10.0 语音识别错误 kAFAssistantErrorDomain

我尝试使用语音识别如下 let urlpath Bundle main pathForResource myvoice2 ofType m4a let url URL URL init fileURLWithPath urlpath let
.NET 多线程、易失性和内存模型

假设我们有以下代码 class Program static volatile bool flag1 static volatile bool flag2 static volatile int val static void Main s
关于全局/范围的 Ruby 方法查找

我试图完全理解 Ruby 如何定位方法符号但当它涉及多个级别时尤其是全局文件范围我感到很困难当在类上显式调用方法时有很多关于搜索类及其包含的模块的顺序的说明因此确切地说是什么super每种情况下都会调用但是当没有显式调用方
如何在循环中命名和创建文件

在 C 中我想创建并打开文本文件以写入数据但问题是我想即时命名文件例如 FILE ptr for i 0 i lt 1000 i fopen s ptr i txt w operations to fill data into fil
JSHint 选项默认值的完整列表？

我在哪里可以获得 JSHint 默认选项的完整列表我尝试在网上搜索但找不到任何东西编辑我的意思是默认列表values for all选项以防不清楚你可以看看boolOptions valOptions and invertedOp
HQL 错误：连接所需的路径

我一直在尝试这个查询的变体但似乎无法实现这一点我还参考了这篇文章预计加入路径休眠错误 https stackoverflow com questions 5759707 path expected for join nhiberna
C# 发送带有附件的电子邮件（图片）

我的方法使用 SMTP 中继服务器发送电子邮件一切正常电子邮件已发送除了附件图像以某种方式压缩不存在并且无法从电子邮件中检索之外该方法如下所示 public static bool SendEmail HttpPostedFi
GitHub API - 如何确定文件是否实际上是符号链接？

通过 GitHub API 查询符号链接时如果符号链接指向文件而不是目录我会得到不同的结果后者表现得更好因为它会返回 type symlink 作为其 JSON 的一部分而前者返回 type file 例子文件符号链接 https
动态插入 3 个图像到水平滚动视图或 Viewpager

下面显示了我正在寻找的图像目前我正在使用视图寻呼机和圆圈指示器在视图页面中它仅显示单个图像我想要在一个viewpager中显示三张图像如图所示当我滑动该页面时再次从服务器加载三个不同的图像并在下面显示文本这个怎么做对此有
使用已知和未知字段反序列化 json

给出以下 json 结果默认的 json 结果有一组已知的字段 id 7908 name product name 但可以使用其他字段进行扩展在本例中 unknown field name 1 and unknown field nam
jQuery - 选择具有特定样式的子项

我不知道如何在以下示例中选择第一个跨度 div class sp span abc span span xyz span div 我尝试过使用这个但没有成功 div sp span visibility hidden not work t
使用 XCode 4.5 运行 iOS 5.1 模拟器时出现问题

我最近将 XCode 升级到了 4 5 版本现在当我尝试开发 iOS 5 0 5 1 的应用程序时遇到了问题我开发了一个简单的 iPad 游戏用户需要将图像与相应的单词进行匹配所有这些项目都存储在 UIImageView 中如果相
适用于 iOS 8 和 iOS 9 的自定义 Unwind Segue

我的问题是如何让以下自定义展开转场在 iOS 9 之前版本的设备以及运行 iOS 9 的设备上工作我有一个显示视图控制器的自定义 Segue 然后有一个相应的自定义展开 Segue 这段代码在 iOS 8 中运行良好是通过创建 UIS
将 jzy3d.canvas 转换为 awt.component

我需要将 jzy3d 画布转换为 java awt component 我想使用 JCombobox 和按钮在框架中显示图表但是当我想将画布转换为组件时程序被删除谢谢您的回答我已经尝试过this https stackoverflo
Spring 5 WebFlux 中的缓存

有没有办法在 Spring 5 中缓存来自 WebClient 的 Flux 我尝试过这个但没有缓存任何东西 RestController SpringBootApplication EnableCaching public class
如何标记相同的熊猫数据框行？

我有一个像这样的大熊猫数据框 log apple watermelon orange lemon grapes 1 1 1 yes 0 0 1 2 0 1 0 0 1 True 0 0 0 2 2 0 0 0 0 2 2 1 1 yes 0

如何标记相同的熊猫数据框行？

如何标记相同的熊猫数据框行？ 的相关文章

随机推荐

热门标签

如何标记相同的熊猫数据框行？的相关文章