在两列上使用 pandas 进行因式分解

2023-12-01

我在 pandas 数据框中有一些数据，如下所示；

CAR_TYPE   MILEAGE
FORD       100     
FORD       100    
FORD       200    
FORD       300
VW         100     
VW         150
VW         150
VW         300

我想对数据进行“因式分解”，为每对数据返回一个唯一的 ID。不过，我希望将不同汽车品牌的唯一 ID“重置”为零。目前我使用以下方法进行因式分解；

df['CAR_ID']=pd.factorize(pd.lib.fast_zip([df.CAR_TYPE.values, df.MILEAGE.values]))[0] 
df.CAR_ID=df[['CAR_ID', 'CAR_TYPE']].astype(str).apply(lambda x: ''.join(x), axis=1)

给了我类似的东西

CAR_TYPE   MILEAGE     CAR_ID  
FORD       100         FORD0
FORD       100         FORD0
FORD       200         FORD1
FORD       300         FORD2
VW         100         VW3
VW         150         VW4
VW         150         VW4
VW         300         VW5

理想情况下我想要

CAR_TYPE   MILEAGE     IDEAL_CAR_ID  
FORD       100         FORD0
FORD       100         FORD0
FORD       200         FORD1
FORD       300         FORD2
VW         100         VW0
VW         150         VW1
VW         150         VW1
VW         300         VW2

对于这个相对愚蠢的问题表示歉意，经过漫长的一天后才提出这个问题。我知道它可以通过堆栈/取消堆栈、reset_index/set_index 来解决。

您可以使用groupby with rank如果值在MILEAGE按组排序：

a = df.groupby(['CAR_TYPE'])['MILEAGE'].rank(method='dense') \
      .sub(1).astype(int).astype(str)
df['IDEAL_CAR_ID'] = df['CAR_TYPE'].add(a)
print (df)

  CAR_TYPE  MILEAGE IDEAL_CAR_ID
0     FORD      100        FORD0
1     FORD      100        FORD0
2     FORD      200        FORD1
3     FORD      300        FORD2
4       VW      100          VW0
5       VW      150          VW1
6       VW      150          VW1
7       VW      300          VW2

另一种解决方案是factorize:

a = df.groupby(['CAR_TYPE'])['MILEAGE'] \
       .transform(lambda x: pd.factorize(x)[0]).astype(str)
df['IDEAL_CAR_ID'] = df['CAR_TYPE'].add(a)
print (df)
  CAR_TYPE  MILEAGE IDEAL_CAR_ID
0     FORD      100        FORD0
1     FORD      100        FORD0
2     FORD      200        FORD1
3     FORD      300        FORD2
4       VW      100          VW0
5       VW      150          VW1
6       VW      150          VW1
7       VW      300          VW2

如果列未排序，则输出不同：

print (df)
  CAR_TYPE  MILEAGE
0     FORD      500
1     FORD      500
2     FORD      200
3     FORD      300
4       VW      100
5       VW      150
6       VW      150
7       VW      300

a = df.groupby(['CAR_TYPE'])['MILEAGE'].rank(method='dense') \
      .sub(1).astype(int).astype(str)
df['IDEAL_CAR_ID'] = df['CAR_TYPE'].add(a)
print (df)
  CAR_TYPE  MILEAGE IDEAL_CAR_ID
0     FORD      500        FORD2
1     FORD      500        FORD2
2     FORD      200        FORD0
3     FORD      300        FORD1
4       VW      100          VW0
5       VW      150          VW1
6       VW      150          VW1
7       VW      300          VW2

a = df.groupby(['CAR_TYPE'])['MILEAGE'] \
       .transform(lambda x: pd.factorize(x)[0]).astype(str)
df['IDEAL_CAR_ID'] = df['CAR_TYPE'].add(a)
print (df)
  CAR_TYPE  MILEAGE IDEAL_CAR_ID
0     FORD      500        FORD0
1     FORD      500        FORD0
2     FORD      200        FORD1
3     FORD      300        FORD2
4       VW      100          VW0
5       VW      150          VW1
6       VW      150          VW1
7       VW      300          VW2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

在两列上使用 pandas 进行因式分解的相关文章

获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
如何自动替换多个文件的文本内容中的字符？

我有一个文件夹 myfolder包含许多乳胶表我需要替换其中每个字符即替换任何minus sign by an en dash 只是为了确定我们正在替换连字符INSIDE该文件夹中的所有 tex 文件我不关心 tex 文件名手动执
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
将一个时间序列插入到 pandas 中的另一个时间序列中

我有一组定期测量的值说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
python中函数变量的作用域

假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
将 subprocess.Popen 的输出通过管道传输到文件

我需要启动一些长时间运行的进程subprocess Popen 并希望拥有stdout and stderr从每个自动管道到单独的日志文件每个进程将同时运行几分钟我想要两个日志文件 stdout and stderr 每个进程当进程运行
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
字典的嵌套列表

我正在尝试创建dict通过嵌套list groups Group1 A B Group2 C D L y x 0 for y in x if y x 0 for x in groups d k v for d in L for k v in
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
使用循环将对象添加到列表（python）

我正在尝试使用 while 循环将对象添加到列表中基本上这就是我想做的 class x pass choice raw input pick what you want to do while choice 0 if choice 1 E
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
ValueError：无法插入 ID，已存在

我有这个数据 ID TIME 1 2 1 4 1 2 2 3 我想按以下方式对数据进行分组ID并计算每组的平均时间和规模 ID MEAN TIME COUNT 1 2 67 3 2 3 00 1 如果我运行此代码则会收到错误 ValueE
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
Google App Engine 中的自定义身份验证

有谁知道或知道我可以在哪里学习如何使用 Python 和 Google App Engine 创建自定义身份验证流程我不想使用 Google 帐户进行身份验证并且希望能够创建自己的用户如果不是专门针对 Google App Engin

随机推荐

如何通过互联网以编程方式将名片消息发送到手机

是否可以以名片格式从互联网发送消息我需要将联系人发送到手机以便收件人可以轻松保存该联系人使用短信API我们可以发送短信但是如何发送名片文件在我的项目场景中我有 10 个人的电话号码我需要将这些号码以名片格式发送到另一部手机关
从 javascript 调用 jsp 方法

我在 jsp 页面中使用这样的方法并且该页面以 new jsp 的名称保存
执行以下代码时，我收到此“TypeError：img 不是数字元组”

import cv2 ram frames 30 cam cv2 VideoCapture 0 def get image cap cam read return cap for i in xrange ramp frames temp g
背景附件：修复了在 Chrome 中不起作用的问题

我正在开发一个网站其中我使用了background attachment fixed财产它在 Firefox 中工作正常但图像未修复在 Chrome 中它表现正常这是代码 CSS AboutBg background attach
Unix套接字编程中如何获取本地IP地址和端口？

我用它作为地址来创建一个新服务器 socket bind listen struct sockaddr in newServer memset newServer 0 sizeof newServer newServer sin famil
如何清除 Visual Studio Code 中的终端？

我需要清理 Visual Studio Code 中终端的内容每次我使用 Maven 时终端的输出都会附加到之前的构建这让我很困惑如何使用某些命令或键盘快捷键清除终端窗口 cls不起作用它只隐藏文本 Use Ctrl K This
使用 conan 安装 gtest：对 `testing::internal::GetBoolAssertionFailureMessage` 的未定义引用

I use cmake构建我的项目并conan安装谷歌测试作为依赖柯南文件 txt requires gtest 1 7 0 lasote stable generators cmake imports bin dll gt build
ClearCase UCM：从 Dev-stream 获取最新版本

我对动态视图的配置规范感到困惑我尝试将 UCM 流的文件夹的最新版本从开发流获取到另一个基础动态视图我的想法是做一个 element PathToFolder DEV STREAM NAME LATEST 但这不会给我任何东西 UC
创建只读文件

我想知道是否可以创建或模拟一个在创建时设置内容的文件并确保没有人可以更改该文件如果可以的话我可以用java来做吗将文件设置为只读并不意味着任何人都无法更改它取消只读标志大约需要 3 秒然后可以在十六进制编辑器或其他可以处理文件类
如何在nodejs中通过TCP/IP获取传感器数据？

我有一个带有socket io 的nodejs 应用程序要测试这一点请将以下列表保存为 app js 安装 Node 然后 npm install socket io 最后在命令提示符下运行 node app js var http r
XSLT 更改命名空间前缀

我正在尝试将属性转换为元素与此同时我想更改 XML 代码的命名空间前缀 XML代码
使用php/Java读取foxpro DB

我正在寻找一个代码片段库用于使用 Linux 服务器上的 php Java 通过网络从第三方 Foxpro DB 读取数据有可用的图书馆吗有些人似乎在使用 php 的 Dbase 库那样有用吗除了默认值数据库名用户名密码
如何在已经存在于pdf.js中的canvas中绘制矩形

我在这里使用 pdf js 在画布中渲染我的 pdf 我的代码是 div div class pdfViewer div div 上面的canvas是通过viewer js生成的现在我试图在我的pdf上绘制矩形但它没有显示我的矩形我的
使用 CreateProcess 函数启动时，cmd.exe 在某些情况下不会终止

我正在通过 C 程序使用 CreateProcess 函数执行批处理命令我通过检查进程退出代码是否等于除 STILL ACTIVE 之外的任何值来检查进程是否已使用 GetExitCodeProcess 函数终止这适用于 cmd c e
谷歌服务添加了强制关闭应用程序并显示日志猫错误

我一直在开发一个简单的应用程序来加载地图视图我已经遵循了API https developers google com maps documentation android start add a map BUT 执行应用程序强制关闭并出
在WPF中获取数据网格中的多个选定行？

我想在 WPF 中获得数据网格的多重选择因为我的业务要求我在数据网格中有一个客户表它允许多重选择和单选按钮全部选定除选定之外的所有如果单击选定的或未选定的所有客户我必须仅提取数据网格中选定的那些客户的数据请建议解决方案以获取
从 MySQL 数据库中读取一行中的一列

有没有一种快速而肮脏的方法来从一行中获取一列的值现在我使用这样的东西 result mysql query SELECT value FROM table WHERE row id 1 row mysql fetch array resu
默认情况下选择 ManyToManyField 中的所有选项

默认情况下是否可以选择 Django 中 ManyToManyField 生成的多个选择中的所有选项添加的所有新项目都应在视图中预先选择所有选项也在添加新项目时 AnotherEntity class AnotherEntity mod
根据可用性在 GPS 和网络提供商之间切换

public void onCreate locationListener new GeoUpdateHandler locationManager LocationManager getSystemService Context LOCA
在两列上使用 pandas 进行因式分解

我在 pandas 数据框中有一些数据如下所示 CAR TYPE MILEAGE FORD 100 FORD 100 FORD 200 FORD 300 VW 100 VW 150 VW 150 VW 300 我想对数据进行因式分解为

在两列上使用 pandas 进行因式分解

在两列上使用 pandas 进行因式分解 的相关文章

随机推荐

热门标签

在两列上使用 pandas 进行因式分解的相关文章