Pandas groupby 与 sklearn 预处理相结合

2024-04-01

我想按特定列对 DataFrame 进行分组，然后应用 sklearn 预处理 MinMaxScaler 并存储缩放器对象。

我目前的出发点：

import pandas as pd
from sklearn import preprocessing

scaler = {}
groups = df.groupby('ID')

for name, group in groups:
  scr = preprocessing.MinMaxScaler()
  scr.fit(group)
  scaler.update({name: scr})
  group = scr.transform(group)

这可能吗？df.groupby('ID').transform ?

UPDATE

来自我原来的数据框

pd.DataFrame( dict( ID=list('AAABBB'),
                    VL=(0,10,10,100,100,200))

我想根据 ID 缩放所有列。在这个例子中：

   A 0.0
   A 1.0
   A 1.0
   B 0.0
   B 0.0
   B 1.0

使用信息/缩放器对象（使用 fit 初始化）

preprocessing.MinMaxScaler().fit( ... )

你可以朝一个方向做：

In [62]: from sklearn.preprocessing import minmax_scale

In [63]: df
Out[63]:
  ID   VL  SC
0  A    0   0
1  A   10   1
2  A   10   1
3  B  100   0
4  B  100   0
5  B  200   1

In [64]: df['SC'] = df.groupby('ID').VL.transform(lambda x: minmax_scale(x.astype(float)))

In [65]: df
Out[65]:
  ID   VL  SC
0  A    0   0
1  A   10   1
2  A   10   1
3  B  100   0
4  B  100   0
5  B  200   1

但你将无法使用inverse_transform因为每次调用MinMaxScaler（对于每个组或每个ID）将覆盖有关您原始功能的信息...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

scipy

Pandas groupby 与 sklearn 预处理相结合的相关文章

使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何正确设置 statsmodels.tsa.ar_model.AR.predict 函数的开始/结束参数

我有一个来自不规则间隔时间序列的项目成本数据框我想尝试应用该数据框statsmodelAR模型对抗 http www statsmodels org stable generated statsmodels tsa ar model AR
获取 Pandas 数据框中选定值的行和列标签

我想获取与数据框中某些条件匹配的值的行和列标签为了保持它的趣味性我需要它与分层多索引一起使用例如 df pd DataFrame np arange 16 reshape 4 4 columns pd MultiIndex fro
如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
用缺失的日期填充其他列 Nan Pandas DataFrame

我实际上是从几个 Excel 文件中提取数据来监控我的每日卡路里摄入量我设法使用列表理解来生成日期我尝试使用合并或连接但它不起作用 ValueError 您正在尝试合并对象和 float64 列 date list 2021 05 2
Pandas：为什么附加到浮点数和整数的数据帧会比充满 NaN 的数据帧慢

我正在从一个文件中获取数据该文件通过 Sierra Chart 从盈透证券 5 秒 OHLCVT 柱线接收数据按照之前帖子中的建议我不是将每个新行附加到数据帧而是使用历史文件构建一个数据帧并向其中附加 5000 个具有正确时间戳的
按工作日对 pandas 数据框进行排序

如何按工作日名称对 DataFrame 进行排序我无法使用 pd to datetime 方法因为我的日期不是数字 Date Transactions 0 Friday 140 652174 1 Monday 114 000000 2
如何在基于其他数据帧的数据帧中创建联接？

我有 2 个数据框一份包含学生批次详细信息另一份包含分数我想加入 2 个数据框数据框1包含 s1 s2 s3 Stud1 Stud2 Stud3 Stud2 Stud4 Stud1 Stud1 Stud3 Stud4 数据框2包含
ValueError：无法将 DatetimeIndex 转换为 dtype datetime64[us]

我正在尝试为 S P 500 ETF 创建一个包含 30 分钟数据的 PostgreSQL 表 spy30new 用于测试新插入的数据来自具有 15 分钟数据的多个股票的表全部 15 个 all15 在 dt 时间戳和 instr 股
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
pandas - 组合行的字符串

我有一个像这样的数据框 id text 1 DM HTN Enlarged prostate 2 hypertensive and on regular treatment 2 LBP 3 DM HTN Enlarged prostate
如何使用 scipy.odr 估计拟合优度？

我使用 scipy odr 将数据与权重拟合但我不知道如何获得拟合优度或 R 平方的度量有人对如何使用函数存储的输出来获取此度量有建议吗 The res var的属性Output http docs scipy org doc scip
基于坐标合并数据框

我有两个数据框两个数据框都包含经度和纬度列我想根据经度和纬度列合并这两个数据框首先我应用了普通merge函数它产生空的结果数据框我调查发现两个数据框没有相同的经度和纬度列然后我尝试了另一个函数merge asof并将方向设置为
读取Python/Pandas中缺少值的空格分隔文件

我正在尝试使用 panda 中的 read csv 在 Python 中读取空格分隔的文件它通过指定分隔符来工作当列中存在某些缺失值时就会出现问题因为它通过将缺失值视为分隔符来忽略缺失值有办法解决这个问题吗 1600 1141
Xticks by pandas 情节，用字符串重命名

我有这个df df pd DataFrame A 1 2 3 B 2 3 5 C name 1 name 2 name 3 A B C 0 1 2 name 1 1 2 3 name 2 2 3 5 name 3 绘制柱状图的正确方法是什么
如何使第一行变成第二级MultiIndex

我有一个现有的 DataFrame 如下所示 1 1 1 2 2 2 2 abc def ghi jkl mno pqr stu 1 00 2 00 3 00 4 00 5 00 6 00 7 00 1 00 2 00 3 00 4 00
合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube

随机推荐

C++ 使用模板来避免编译器检查布尔值

假设我有一个函数 template
在 Gradle 中正确显示 UTF-8 文本

我有一个任务 task info lt lt println Gradle Apache Ant Apache Maven DSL Groovy XML 当我使用命令时 gradle info Dfile encoding UTF 8 文本
何时在表达式中计算/返回/获取 Java 变量中的值？

根据http introcs cs princeton edu java 11precedence http introcs cs princeton edu java 11precedence 后自增运算符的优先级高于加法运算符因此对
如何“选择”字符串数组

当我使用Select Object NameCmdLet 似乎用单个创建了一个新对象Name其上的财产我经常想将此选择通过管道传递给其他 CmdLet 但它们通常只需要一个字符串我如何轻松获取一堆对象并说仅选择属性 x 和属性值到数组
跨 3 个平台的 Xamarin 移动应用版本号方案

这里可能有多个相关的问题我正在尝试为我们从单个 xamarin 解决方案构建的 3 个移动应用程序提出一个简单的版本号更新方案我正在寻找一种简单的方法来保持所有这些值彼此同步而不必四处走动并单独更新它们 Windows Phone 版
将 Spring Security 3 与 Jersey Rest API 结合起来

我有一个场景我试图将 spring security 与 jersey 结合起来用于我的 REST API 我的需求相当复杂我认为如下 Spring security 用于拦截 url 并强制进行基本身份验证以便访问 REST 资源
如何在 Flask 中制作 RadioField？

我有一个带有 TextField FileField 的表单并且我想添加 RadioField 我想要一个有两个选项的单选字段用户只能选择一个我正在遵循前面两种有效形式的示例我的 forms py 看起来像这样 from flask
自定义 QPrintPreviewDialog

是否可以自定义PrintPreviewDialog 我想界定放大和缩小功能我知道这个问题已经有几个月了但我花了相当长的时间才弄清楚所以这里是 QPrintPreviewDialog preview printer this QList
如何在 django 中指定索引类型？（btree 和 hash 对比等）

就像标题所说如何在 django 模型中的字段上指定我想要的索引类型 class Person age models IntegerField db index True 现在怎么办我如何确保它是一个btree index而不是一个ha
如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？

我希望显示 pdf 文件的完整路径及其在浏览器上显示的内容我的脚本有一个输入 html 用户将在其中输入文件名并提交表单该脚本将搜索该文件如果在子目录中找到该文件则将文件内容输出到浏览器中并显示其名称我能够显示内容但无法同时显示
为什么我无法使用 Select 从 onChange 获取值？

测试表单的一部分所以现在我只想提醒用户选择什么 JS function getData title alert title PHP 生成的 HTML
如何模糊匹配相邻单元格？

我有一行 10 000 个名字位于两个相应的列中每列 10 000 个 A 列中的每个单元格对应于 B 列中的相邻单元格我想进行模糊匹配并获得所有单元格与相邻单元格的兼容性分数我不希望它搜索整个列与整个列只搜索相邻的单元格我似
在哪里下载signcode.exe和其他工具

如果您决定签署代码您将需要签名代码 exe 生成证书文件 cert2spc exe pvk2pfx exe 下载这些工具的最佳位置是哪里有没有办法在不下载大量 Microsoft Windows SDK 的情况下执行此操作从视窗软件
AWS elemental mediaconvert 自动旋转视频？

我正在使用 AWS elemental media Convert 将 mp4 视频转换为 HLS 一切正常但输出视频旋转了 90 度是否有一个设置可以用来阻止这种情况发生我正在 iPhone 上拍摄视频 Under 输入 gt 视频
如何制作顶部有锯齿边缘的 TileGroup 布局？

我有包含按钮的spark components TileGroup 我希望按钮像选项卡一样出现在它们所服务的 ViewStack 顶部目前如果我在 TileList 中有 6 个项目它会将其布局为 2 行其中 4 个项目位于顶部拖曳
HTML5 视频的多个音轨

我正在使用 HTML5 为我的网站制作视频理想情况下我只有一个无声视频文件以及与视频同步的不同语言的五个不同音轨然后我会有一个按钮允许用户在音轨之间切换甚至在视频播放时也是如此正确的音轨就会出现视频不会暂停或重新开始或任何其
使用 Passport.js 进行动态失败重定向

这是我的atm登录功能 app post login passport authenticate local failureRedirect login error 1 function req res res redirect req b
Firebase 聊天应用程序 setValue 公共数据库失败错误？

我有一个使用 Firebase 的聊天应用程序它一直有 x 处的 setValue 失败数据库错误权限被拒绝每次我输入消息时都会出错我已经将数据库设置为公开 service cloud firestore match databa
Python：查找列表元素之间的差异

给定一个数字列表如何找到每个 i 个元素及其 i 1 th 最好使用lambda表达式或者列表理解例如给定一个列表t 1 3 6 目标是找到一个列表v 2 3 因为3 1 2 6 3 3 etc gt gt gt t 1 3 6 gt
Pandas groupby 与 sklearn 预处理相结合

我想按特定列对 DataFrame 进行分组然后应用 sklearn 预处理 MinMaxScaler 并存储缩放器对象我目前的出发点 import pandas as pd from sklearn import preprocess

Pandas groupby 与 sklearn 预处理相结合

Pandas groupby 与 sklearn 预处理相结合 的相关文章

随机推荐

热门标签

Pandas groupby 与 sklearn 预处理相结合的相关文章