如何在pandas中的多个数据框列中“选择不同的”？

2024-04-21

我正在寻找一种与 SQL 等效的方法

SELECT DISTINCT col1, col2 FROM dataframe_table

pandas sql 比较没有任何内容distinct.

.unique()只适用于单个列，所以我想我可以连接这些列，或者将它们放入列表/元组中并以这种方式进行比较，但这似乎是 pandas 应该以更原生的方式做的事情。

我是否遗漏了一些明显的东西，或者没有办法做到这一点？

您可以使用drop_duplicates http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html获取 DataFrame 中唯一行的方法：

In [29]: df = pd.DataFrame({'a':[1,2,1,2], 'b':[3,4,3,5]})

In [30]: df
Out[30]:
   a  b
0  1  3
1  2  4
2  1  3
3  2  5

In [32]: df.drop_duplicates()
Out[32]:
   a  b
0  1  3
1  2  4
3  2  5

您还可以提供subset如果您只想使用某些列来确定唯一性，请使用关键字参数。请参阅文档字符串 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

duplicates

Distinct

如何在pandas中的多个数据框列中“选择不同的”？的相关文章

每个刻度标签都有不同的颜色

我正在尝试使用 matplotlib python 3 5 创建一个散点图其中 x 轴上的每个刻度都有不同的颜色这怎么可能例如假设 x 刻度为 Mo Tu We Th Fr Sa Su 现在我希望 Mo 是绿色的 Tu 是蓝色的等
如果使用 unicode 字符，则从数据库中进行 SELECT 会出现问题

我在用着latest带DatabaseLibrary的python和机器人框架版本 https franz see github io Robotframework Database Library api 1 0 1 DatabaseLi
使用DockerOperator时如何同时使用xcom_push=True和auto_remove=True？

Problem 跑步时DockerOperator with xcom push True xcom all True and auto remove True 任务会引发错误就好像容器在读取其内容之前被删除一样STDOUT Exampl
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
参数太少错误，同时未使用参数占位符

我尝试使用 PYODBC 在 Access 数据库中执行 SQL 查询但出现以下错误 pyodbc Error 07002 07002 Microsoft ODBC Microsoft Access 驱动程序参数太少预期为 1 301
有效地写入 pandas 中的多个相邻列

使用 numpy ndarray 可以一次写入多个列而无需先进行复制只要它们相邻如果我想写入数组的前三列我会写 a 0 0 3 1 2 3 this is very fast a is a numpy ndarray 我希望在 pa
更新或插入 MySQL Python

如果记录已存在我需要更新一行如果不存在我需要创建一个新记录我理解 ON DUPLICATE KEY 将使用 MYSQLdb 完成此操作但是我无法使其正常工作我的代码如下 cursor database cursor cursor
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
(venv) (base) 都在 python 项目上活跃，我如何只进入 venv？

所以我将 vscode 与 conda 对于 django 项目一起使用并尝试激活名为 venv 的虚拟环境它来自 base C Users User Desktop pfa master pfa master venv Script
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
根据条件计算平均值

下面是我的数据框 Row ID A B 1 0 0 2 0 0 3 0 0 4 0 1 5 0 1 6 0 1 7 62 75 0 8 100 0 9 100 0 10 100 1 11 100 1 12 100 1 13 100 1 14
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何在Python中显示坐标网格线的变换？

假设我有常规的笛卡尔坐标系 x y 并且我考虑一个矩形网格区域 D 分成小方块我想看看域 D 如何在 Python 中的坐标变换 T x y gt u x y v x y 下映射我正在寻找这样的东西 See here https mat
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
如何测试send_file烧瓶

我有一个小型烧瓶应用程序它需要上传一些图像并将它们转换为多页 tiff 没什么特别的但是如何测试多个文件的上传和文件下载呢我的测试客户端 class RestTestCase unittest TestCase def setUp s
捕获 SQLAlchemy 异常

我可以使用什么捕获 SQLAlechmy 异常的上层异常 gt gt gt from sqlalchemy import exc gt gt gt dir exc ArgumentError CircularDependencyError

随机推荐

Mongoose Population: CastError: 路径“_id”处的值“[object Object]”转换为 ObjectId 失败

遇到一个CastError在 Mongoose 中填充嵌套 ObjectId 引用时值显然是valid 只要它们在保存到架构时不会被阻止有兴趣在服务器端解决此问题以防止将来出现格式错误的数据但是我知道不从客户端保存这些值是一个好主
java 是否存在只有键没有值的哈希结构？

我正在寻找一种无需值即可对键进行哈希处理的结构查询时如果找到密钥则应返回 true 否则返回 false 我正在寻找类似的东西Hashtable
获取符合条件的组合

问题我有一个表我需要在其中提取行或列如果我转置表的所有有效组合列中只有值或并且当组合中的至少一行中有时组合被认为是有效的也就是说所有行中带有的任何组合都是无效的示例表 Guns P 01 P 02 P 03 P
React 路由器匹配失败

使用有什么好处Match and Miss组件来自react router over Router成分我似乎找不到任何关于此的文档反应路由器文档 https github com ReactTraining react router tr
R外部接口

我想实现一些用 C 代码编写的 R 包 C 代码必须将数组任何类型作为输入生成数组作为输出大小不可预测实现数组传递的最佳实践是什么目前 C 代码被调用 C 它通过指针直接从 R 访问数组不幸的是无法对输出执行相同的操作因
如何检查java方法的字节码长度

目前我参与了一个大型遗留项目其中包含许多巨大的类和生成的代码我希望找到所有字节码长度大于 8000 字节的方法因为 OOTB java 不会优化它我发现这样的手动方式 Java 中的特定方法有多少字节的字节码 https stac
如何从 gdb 命令提示符执行外部命令？

我正在使用 gdb 调试程序每当我错过断点或决定添加另一个观察点时我必须终止该进程并重新运行它为了将现有的 gdb 附加到它我使用attach
使用 VS2010 Professional 从 TFS 在线删除项目（TFSDeleteProject 不在我的计算机上！）

我有 Visual Studio 2010 Professional 并且一直在 Visualstudio com 上使用 TFS 服务我读了这个问题及其答案 https stackoverflow com questions 13635
在 ggplot 中自定义图例

我需要帮助使用 ggplot2 自定义图表下面是我正在使用的代码和生成的图表 gt p ggplot a2 aes x grid y median geom line size 1 3 geom line aes x grid y low
如何根据同月的日期查找一个月中特定日期的第五个或结束日期

我一直在尝试根据同月的日期查找一个月中某一天的第五周日期例如第五周星期一日期第五周星期二日期星期三等等该日期可以属于同月的任何一周我尝试过像 DateTime MonthEventDate 05 01 2016 Date for
如何在 HTML 表单中“预填充”文本区域的值？ [复制]

这个问题在这里已经有答案了我正在创建一个简单的后端应用程序用户可以通过它创建更新删除数据库行在本例中为工作列表当用户编辑现有列表时我尝试使用现有行中的数据预填充大部分 HTML 表单我已经使用 value 属性成功地完成了文
如何就地刷新组合框项目？

ComboBox Items 集合是一个 ObjectCollection 因此您当然可以在其中存储您想要的任何内容但这意味着您不会像使用 ListViewItem 那样获得 Text 属性 ComboBox 通过对每个项目调用 ToSt
如何对 IEnumerable 进行分块，而不会在失败时丢失/丢弃项目？

我有一个生产者消费者场景其中生产者是一个可枚举的项目序列 IEnumerable
如何选择 eps 和 minPts（DBSCAN 算法的两个参数）以获得有效的结果？

我应该使用什么例程或算法来为 DBSCAN 算法提供 eps 和 minPts 参数以获得有效的结果 DBSCAN 论文建议根据维度选择 minPts 根据 k 距离图中的肘部选择 eps 在最近的出版物中舒伯特 E 桑德 J 埃斯特 M
有没有办法使用Python从“网站按钮点击”下载csv文件？

我想自动下载 CSV 文件 Projects csv 从这个网站 https www vcsprojectdatabase org projects st c ss 0 so di np 可以通过单击 CSV 图标手动下载 CSV 但我不确
如何告诉 ProGuard 将所有内容保存在特定包中？

我的应用程序有很多活动也使用本机库使用 Eclipse 生成的默认 ProGuard 配置 ProGuard 会删除很多东西 OnClick 方法静态成员我的本机库使用的回调方法是否有一种简单的方法来指示 ProGuard 不要从
使用node-sass编译SCSS时出现未定义变量错误

包 json scripts compile sass node sass sass main scss css style css w 主文件 import abstracts variables import base typograp
CodeIgniter - 动态生成路由

我有一个带有动态导航菜单的网站我将控制器葡萄牙语名称以及英语翻译保存在数据库中我想知道是否有可能在运行时影响路由数组因此它会创建这些路由并在加载页面时缓存它我希望我说得足够清楚谢谢您的帮助你可以这样做创建一个名为 Ro
IntelliJ 是否有内部 Web 服务器来提供 Web 应用程序的静态内容？

现在我的模块的目录被定义为 IIS 虚拟目录并且 IIS 提供文件服务我想知道 IntelliJ 是否有一个内部 Web 服务器可以提供文件服务而不需要任何第三方蚀does https help eclipse org kepl
如何在pandas中的多个数据框列中“选择不同的”？

我正在寻找一种与 SQL 等效的方法 SELECT DISTINCT col1 col2 FROM dataframe table pandas sql 比较没有任何内容distinct unique 只适用于单个列所以我想我可以连接这些

如何在pandas中的多个数据框列中“选择不同的”？

如何在pandas中的多个数据框列中“选择不同的”？ 的相关文章

随机推荐

热门标签

如何在pandas中的多个数据框列中“选择不同的”？的相关文章