如何从Python数据框中的列列表中删除重复项？

2024-03-23

我有一个数据框：

id      rev     names
34e     A      su,ra,ve,ra,de,ra
45e     R      ra,su,su,ve,de
55e     G      su,ra,de
41e     M      su,de,mu,er,su

现在我需要删除重复项，输出应如下所示：

id      rev     names
34e     A      su,ra,ve,de
45e     R      ra,su,ve,de
55e     G      su,ra,de
41e     M      su,de,mu,er

如何才能做到这一点？

如果列首先包含字符串split，转换成sets and join:

df['names'] = df['names'].apply(lambda x: ','.join(set(x.split(','))))

如果列包含列表转换为set and list是必要的：

df['names'] = df['names'].apply(lambda x: list(set(x)))

如果订单很重要使用pandas.unique http://pandas.pydata.org/pandas-docs/stable/generated/pandas.unique.html:

df['names'] = df['names'].apply(lambda x: ','.join(pd.unique(x.split(','))))

df['names'] = df['names'].apply(lambda x: list(pd.unique(x)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

list

如何从Python数据框中的列列表中删除重复项？的相关文章

boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

如何使用 ADO.NET 读取 .XLSX (Excel 2007) 文件？我发现“无法找到可安装的 ISAM”错误

我需要工作于 net 2 0 所以我不能使用 OpenXML 这是我的源代码我已经安装了AccessDatabaseEngine exe 但仍然遇到异常找不到可安装的 ISAM 我也尝试过 Extended Properties Exc
如何在编译时运行“npm install”等 bash 命令

我需要跑npm install gulp build在我的里面static semantic ui文件夹因此它创建了所需的css file 我看到这个例子Setup hs https github com nakaji dayo yeso
JMeter - 使用其他 BeanShell 预处理器/后处理器中的变量？

有没有一种方法可以将变量从一个 BeanShell 预处理器后处理器引用到另一个 BeanShell 处理器它们在同一个线程组内如果我在 HTTP 请求下的 BeanShell 预处理器内创建一个字符串变量那么我可以在同一 HTTP
使用 C#/Linq 将扁平化分层数据从 SQL Server 转换为结构化 JSON 对象

我正在开发一个 MVC 应用程序它从 SQL Server 中的表中检索数据其结构如下 Id Name Hierarchy Depth 01 Justin 0 02 Chris 1 1 03 Beth 1 1 2 中的示例数据Hiera
ggplot 堆叠条形图每个月的前 5 名

我有一个很好的我已经思考这个问题很长时间了我有这个数据集这个数据集可能很大我想根据每月前 5 个最高计数绘制 ggplot 堆栈条形图例如对于 1 1 2012 最高计数将为 I G F D 和 E df Date Desc c
使用 ggplot 绘制具有多个预测变量的模型的一个预测变量

这是线性模型和 ggplot 的典型示例 require ggplot2 utils data anorexia package MASS anorex 1 lt glm Postwt Prewt Treat offset Prewt fa
C++ 的属性和反射库？

大多数成熟的 C 项目似乎都有自己的反射和属性系统即用于定义可以通过字符串访问并自动序列化的属性至少我参与的很多C 项目似乎都是这样的重新发明轮子你知道任何好的开源库对于支持反射和属性容器的 C 具体来说通过宏定义 RTTI 和属性
包中涉及std::transform的Rcpp代码的兼容性

我正在完成我一直在做的一个包所有检查看起来都很好并且在我的计算机上编译没有问题 win builder包裹也没有问题作为进一步检查我尝试在同事的计算机上从源代码安装但失败了问题来自于我从中获取的 Rcpp 函数Rcpp 中关于向
内容解析器的使用

我是 android 领域的新手正处于学习阶段我有几个疑问每个应用程序是否有单个 ContentResolver 对象它是一个单例对象吗谁管理这个对象的生命周期如果是单例它如何处理查询ContentProvider的多个请求
C11编译器一致性比较

是否有任何网站可以比较实现编译器之间当前的 C11 标准一致性支持 gcc clang 英特尔 open64 pelles 据我所知没有通用网站现在是开始建立一个网站的好时机然而大多数项目都有自己的列表 http clang l
子项目中的 Cocoapods

我有一个带有子项目的项目子项目和主项目都必须使用Cocoapods来集成一个库如果没有Cocoapods 似乎无法集成所以我为主项目及其子项目设置了 Cocoapods 子项目在其生成的工作区中构建但编译主项目会产生以下错误 ld
如何使标签文本左右对齐以具有相同的对齐方式？

我使用 html 和 CSS 处理模板我面临的问题是我无法使左右对齐标签文本相同作为例子提交日期和员工 ID 不是从左侧的同一点开始因此我需要左侧的所有文本都具有相同的对齐方式同样在右侧文本也不是从与和相同的点开始所以我需
具有自定义比较器的 Java PriorityQueue

我正在使用 PriorityQueue 和我自己的比较器但不知何故最终结果并不总是好的我应该按平均成绩姓名身份证号码排序最后它应该返回有序队列中剩余的名称其余的名称都可以但顺序不同输入姓名平均成绩 id no add
如何打印密码组合（但每个索引都有自定义约束）

我正在尝试构建一个动态密码恢复工具您可以指定密码以及与未知密码索引对应的未知字符列表因此如果您记住了 90 的密码并且记不住几个字母这将为您提供轻量级的暴力破解我能够将用户提供的密码与未知字符列表结合起来但是我一直试图打印每
禁用 mp3 自动播放

我尝试禁用自动播放但没有成功这是我的代码失败的尝试去除autoplay完全地改变autoplay to autostart and AutoStart setting autoplay autostart AutoStart to
Reactable R - 将每页最大行数从 10 更改为 5

我想将每页可反应的行数限制为 10 到 5 这是一个可重现的示例 set seed 250 df lt tibble x sample x 1 20 reactable df 现在当您运行此代码时会出现两页每页 10 行我想要四页
正则表达式将 npm 库排除在缩小范围之外

我必须为 websockets 使用非开源发布订阅库扩散 https www npmjs com package diffusion v 5 9 2 并且必须坚持使用特定版本因为它是在服务器端使用的我无法控制它问题在于在其代码库
无法在 asp.net 中的 webmethod 中获取会话

我只是发现问题与webmethod无关这是由另一个问题引起的我设置了Session PhotoId 在正常的 aspx 中但我无法检索其中的值webMethodaspx 页面的 WebMethod EnableSession true
Windows C# 实现linux dd 命令

我正在编写一个在 Windows 上运行的 C Net 应用程序它需要拍摄可移动磁盘的映像并将其放入 Linux Live USB 上 Live USB 被插入目标机器并启动启动时它会运行一个脚本该脚本使用 dd 命令如下所示将其闪
如何从Python数据框中的列列表中删除重复项？

我有一个数据框 id rev names 34e A su ra ve ra de ra 45e R ra su su ve de 55e G su ra de 41e M su de mu er su 现在我需要删除重复项输出应如下所示

如何从Python数据框中的列列表中删除重复项？

如何从Python数据框中的列列表中删除重复项？ 的相关文章

随机推荐

热门标签

如何从Python数据框中的列列表中删除重复项？的相关文章