从整个数据框中删除重复值

2024-03-07

我有一个 Pandas DataFrame 如下；

data = pd.DataFrame({'A':[1,2,3,1,23,3,76,2,45,76],'B':[12,56,22,45,1,3,98,79,77,67]})

为了从数据框中删除重复的值，我已经这样做了；

set(data['A'].unique()).union(set(data['B'].unique()))

这导致；

set([1, 2, 3, 12, 76, 77, 79, 67, 22, 23, 98, 45, 56])

有更好的方法吗？有没有办法通过使用来实现这一目标drop_duplicates?

Edit:

另外，如果我还有两列“C”和“D”，但只需要从“A”和“B”中删除重复项怎么办？

如果你打算折叠这个

In [10]: np.unique(data.values.ravel())
Out[10]: array([ 1,  2,  3, 12, 22, 23, 45, 56, 67, 76, 77, 79, 98])

这也会起作用

In [12]: data.unstack().drop_duplicates()
Out[12]: 
A  0     1
   1     2
   2     3
   4    23
   6    76
   8    45
B  0    12
   1    56
   2    22
   6    98
   7    79
   8    77
   9    67
dtype: int64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

从整个数据框中删除重复值的相关文章

在 Django 中获取数据库类型[重复]

这个问题在这里已经有答案了我需要能够确定 Django 运行时使用的数据库类型 MYSQL False if
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
使用 python-docx 在 docx 文件中查找所有“正常”样式且字体大小不是 11 的文本

到目前为止我的实现 from docx api import Document import pandas as pd from docx shared import Pt texts sizes document Document new
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Bottle 是否可以处理没有并发的请求？

起初我认为 Bottle 会并发处理请求所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
PyPI 上的轮子平台约束有什么限制吗？

是否有任何地方 PEP 或其他地方声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有具体来说上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
如何让 Python 找到 ffprobe？

I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上并且我已将它们的路径添加到 PATH 中我可以从终端运行它们我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
Python中的MariaDB连接器无法连接到远程服务器

我使用与远程 Mariadb 服务器的连接已有几个月了今天无法再通过 macOS 上的 python mariadb 模块和 mariadb 连接器建立连接基本安装如下 brew install mariadb connector c
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
如何有效地计算另一列中每个元素的较大元素的数量？

我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

com.zaxxer.hikari.pool.PoolInitializationException：池初始化期间出现异常

我目前有一个连接到我的主数据库的开放池并且它运行良好但现在我想为另一个数据库打开一个新池我完全按照我设置第一个池的方式设置了新池显然我编辑了数据库名称等当我加载 setupHikari 方法时没有出现错误但一旦实际语句即将运行
使用 Rails 3.2.* 和 Postgres 的字符串与文本 - 我应该只使用文本吗

我采用了一个 Rails 应用程序 Rails 3 2 和 Postgres 9 4 它有一些 Rails 字符串并且我们已经超过了 255 个限制该应用程序之前使用 MySQL 而不是 Postgres 作为后备存储我的理解是 po
在 AngularJS 中处理服务器重定向到 Facebook 登录页面

我有一个 AngularJS 应用程序和一个带有 ASP NET Identity 2 0 的 WebApi2 我正在尝试使用 Facebook 帐户登录用户我在用这个答案 https stackoverflow com a 213589
获取连接的智能手表的电池电量

作为 Wear API 的一部分是否可以获取已连接智能手表的电池电量最好不需要在智能手表上部署实际的佩戴组件然后在手表和设备之间来回通信我见过一些穿戴应用程序可以在手表本身上显示手表的电池电量但我只是想了解手表当前的电池电量使用电
如何使用 ExecutorService Java 减少到达 Runnable 类的 run 方法的时间延迟

我试图实现一个实时执行应用程序其中按钮单击事件将任务分配给 Thread 该任务将调用MIDI方法播放一些音乐单击按钮时必须立即开始播放音乐并有一小段延迟 midi代码在Runnable类的run方法中实现但是要在按钮单击事件本身发
使用 CFStringGetHyphenationLocationBeforeIndex 添加连字符

我正在制作一本带有核心文本的杂志我试图自动在文本中添加连字符我想我可以用这个功能来做到这一点 CFStringGetHyphenationLocationBeforeIndex 但它不起作用我在网上找不到任何示例我想要做的是设置文本
如何在 Clojure 中捕获多个异常？

我的 Clojure 代码有一些 java 互操作其中的方法会引发多个异常我希望与他们每一个人打交道根据 Clojure 文档 try expr catch clause finally clause catch clause gt
jQuery.POST - 使用 Form.Serialize() 传递另一个参数 - Asp.net MVC 3

当我正在开发 Asp Net MVC 应用程序时在我的应用程序中我使用jQuery POST提交表单的方法 e g jQuery post Product Save jQuery document forms 0 serialize fu
查找并附加某个类的 href

我一直在寻找解决方案但尚未找到正确的方法情况是这样的我需要找到给定类的页面上的所有链接例如class tracker 然后在末尾附加查询字符串值因此当用户加载页面时这些某些链接会使用一些动态信息进行更新我知道如何做到这一点Ja
Redis 缓存和 Mongo 持久化架构

设置想象一下类似 Twitter 的服务用户提交帖子然后由许多数百数千或更多用户阅读我的问题是关于构建缓存和数据库以优化快速访问和多次读取的最佳方法但仍保留历史数据以便用户如果他们愿意可以看到较旧的帖子这里的假设是
为什么 Flask 占用了我所有的内存？

我创建了我能想象到的最简单的 Flask 应用程序 import flask from flask import Flask application Flask name application route def index return
从实体框架数据库中选取随机记录而不使用 OrderBy

我尝试从数据库中获取随机记录 personToCall db Persons Skip toSkip Take 1 First 但我得到异常告诉我 The method Skip is only supported for sorted i
如何将 unix 时间戳（自纪元以来的秒数）转换为 Ruby DateTime？

如何将 Unix 时间戳自纪元以来的秒数转换为 Ruby DateTime 抱歉短暂的突触故障这是真正的答案 require date Time at seconds since epoch integer to datetime
投影中的变量“x”不存在于 GROUP BY 中

我想计算城市和括号中的内容但是我也想获得另一个变量但是当我将它添加到 SELECT 时我得到 org openrdf query MalformedQueryException 投影中的变量 region name 不存在于 GRO
如何将 ASP.NET Core Web 应用程序部署到 Windows Server 2016 上的 IIS

1 我想做的事 I am new to C and now trying to deploy a ASP NET web application to IIS I tried to follow the steps introduced i
为什么 Puppeteer 没有下载到 Windows 中“Page.setDownloadBehavior”指定的文件夹中？

我使用下面的代码通过让 Puppeteer 单击发出事件的按钮来实现文件的下载 await page client send Page setDownloadBehavior behavior allow downloadPath temp
在 Numpy / Scipy 中切片数组

我有一个像这样的数组 a array 1 2 3 3 4 5 4 5 6 从这个只有前两列 a 的 1x2 数组中切出一个最有效的方法是什么 i e array 2 3 4 5 5 6 in this case 二维 numpy 数组的索引
Windows 上的 Tensorflow 对象检测 API - ImportError：没有名为“object_detection.utils”的模块； “object_detection”不是一个包

我正在使用来自的tensorflow对象检测apihttps github com tensorflow models https github com tensorflow models我正在尝试使用带有张量流的 open cv 制作一个
java中的时间连续减少，格式为HH:MM:SS

我有一个在项目中实施投标系统的方法在服务器上的拍卖表中我有一个用于开始时间和结束时间的字段我正在做的是当用户搜索时他当然只会看到拍卖仍在进行中的物品当用户点击该商品时他会被带到一个可以出价的页面在那里我得到开始时间和结束时间
从整个数据框中删除重复值

我有一个 Pandas DataFrame 如下 data pd DataFrame A 1 2 3 1 23 3 76 2 45 76 B 12 56 22 45 1 3 98 79 77 67 为了从数据框中删除重复的值我已经这样做了

从整个数据框中删除重复值

从整个数据框中删除重复值 的相关文章

随机推荐

热门标签

从整个数据框中删除重复值的相关文章