sklearn MinMaxScaler() 与 groupby pandas

2024-01-27

我有两个特点rank and ratings不同日期从电子商务网站抓取的不同类别下的不同产品 ID。

此处提供示例数据框:

import pandas as pd
import numpy as np
import warnings; warnings.simplefilter('ignore')
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler

df=pd.read_csv('https://raw.githubusercontent.com/amanaroratc/hello-world/master/testdf.csv')
df.head()

      category                bid         date  rank    ratings
0   Aftershave  ASCDBNYZ4JMSH42B    2021-10-01  61.0    462.0
1   Aftershave  ASCDBNYZ4JMSH42B    2021-10-02  69.0    462.0
2   Aftershave  ASCDBNYZ4JMSH42B    2021-10-05  89.0    463.0
3   Aftershave  ASCE3DZK2TD7G4DN    2021-10-01  309.0   3.0
4   Aftershave  ASCE3DZK2TD7G4DN    2021-10-02  319.0   3.0

我想正常化rank and ratings using MinMaxScaler()来自sklearn。

I tried

cols=['rank','ratings']
features=df[cols]
scaler1=MinMaxScaler()
df_norm[['rank_norm_mm', 'ratings_norm_mm']] = scaler1.fit_transform(features)

这对整个数据集进行标准化。 我想对每个特定日期的每个类别执行此操作groupby.


Use GroupBy.apply http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.apply.html:

file = 'https://raw.githubusercontent.com/amanaroratc/hello-world/master/testdf.csv'
df=pd.read_csv(file)

from sklearn.preprocessing import MinMaxScaler

cols=['rank','ratings']

def f(x):
    scaler1=MinMaxScaler()
    x[['rank_norm_mm', 'ratings_norm_mm']] = scaler1.fit_transform(x[cols])
    return x

df = df.groupby(['category', 'date']).apply(f)

另一个解决方案:

file = 'https://raw.githubusercontent.com/amanaroratc/hello-world/master/testdf.csv'
df=pd.read_csv(file)

from sklearn.preprocessing import MinMaxScaler

scaler1=MinMaxScaler()
cols=['rank','ratings']

df= df.join(df.groupby(['category', 'date'])[cols]
               .apply(lambda x: pd.DataFrame(scaler1.fit_transform(x), index=x.index))
               .add_prefix('_norm_mm'))
        
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn MinMaxScaler() 与 groupby pandas 的相关文章

  • Python 转换矩阵

    我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵 它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
  • Matplotlib 图例,跨列添加项目而不是向下添加项目

    对于下面的简单绘图 有没有办法让 matplotlib 填充图例 以便它从左到右填充行 而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
  • 将 Python Pandas DataFrame 写入 Word 文档

    我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告 目前我正在使用DataFrame to string 方法 但是 这会作为字符串写入文件 有没有办法让我实现这一目标 同时将其保留为表格 以便我可以使
  • 查找正在导入哪些 python 模块

    从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典 您可以检查其键以查看导入的模块 See http docs python org library sys html
  • 使用pathlib获取主目录

    翻看新的pathlib在 Python 3 4 中 我注意到没有任何简单的方法来获取用户的主目录 我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
  • 查找与另一列 Pandas 中的唯一值关联的列中的值的交集

    如果我有一个像这样的数据框 非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值 因此在这种情况下 交集
  • 正在使用 PIL 保存损坏的图像

    我遇到一个问题 操作图像像素导致保存损坏的图像 因此 我使用 PIL 打开图像 然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后 我转置图像
  • 高级描述熊猫

    有没有像 pandas 那样更高级的功能 通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结 就像这样 A count 1000 000
  • 类型错误:此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

    这是什么错误 回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
  • Python-验证我的文档 xls 中是否存在工作表

    我正在尝试在空闲时间设计一个小程序 加载 xls 文件 然后在要扫描的文档中选择一张纸 步骤1 用户导入 xls文件 导入程序后检查文件是否存在 我能做到的 第 2 步 我要求用户提供要分析的文档表 xls 的名称 这就是它停止的地方 该程
  • 为什么 Collections.counter 这么慢?

    我正在尝试解决罗莎琳德的基本问题 即计算给定序列中的核苷酸 并在列表中返回结果 对于那些不熟悉生物信息学的人来说 它只是计算字符串中 4 个不同字符 A C G T 出现的次数 我期望collections Counter是最快的方法 首先
  • 如何在matplotlib中调整x轴

    I have a graph like this x轴上的数据表示小时 所以我希望x轴设置为0 24 48 72 而不是现在的值 很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
  • 如何创建用于霍夫曼编码和解码的树?

    对于我的作业 我将对霍夫曼树进行编码和解码 我在创建树时遇到问题 并且陷入困境 不要介意打印语句 它们只是让我测试并查看函数运行时的输出是什么 对于第一个 for 循环 我从主块中用于测试的文本文件中获取了所有值和索引 在第二个 for 循
  • 是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项?

    我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
  • UnicodeDecodeError:部署到 Heroku 时,“utf-8”编解码器无法解码位置 0 中的字节 0xff

    我尝试在heroku上部署我的简单django项目 但我不明白如何解决这个问题 这是git push heroku master remote Traceback most recent call last remote File tmp
  • python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串?

    我有一个正则表达式模式列表 存储在列表类型中 我想将其应用于字符串 有谁知道一个好方法 将列表中的每个正则表达式模式应用于字符串 和 如果匹配 则调用与列表中该模式关联的不同函数 如果可能的话我想用 python 来做这件事 提前致谢 im
  • Python 相当于 Scala 案例类

    Python 中是否有与 Scala 的 Case Class 等效的东西 就像自动生成分配给字段而无需编写样板的构造函数一样 当前执行此操作的现代方法 从 Python 3 7 开始 是使用数据类 https www python org
  • 没有名为“turtle”的模块

    我正在学习并尝试用Python3制作贪吃蛇游戏 我正在进口海龟 我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
  • pandas.read_fwf 忽略提供的数据类型

    我正在从文本文件导入数据框 我想指定列的数据类型 但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
  • 使用 MPI 的 Allreduce 对 Python 对象求和

    我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作 我想让并行使用这个数组操作成为可能 最重要的是 我最终在每个节点上都有计数器 我想使用 MPI Allreduce 或另一个不错的解决方案 将其添加在一起 例如 使用计数

随机推荐

  • 在 Python 子进程中使用 Windows 路径(指向可执行文件)

    我开始在安装了 cygwin Python 2 7 的 Windows 7 x64 计算机上开发一个小型 pdf 到 jpg 脚本 以下效果完美 import subprocess filename test subprocess chec
  • 如何在不锁定 GUI 的情况下将数千个项目添加到绑定集合中

    我有一个设置 其中可能有数千个项目 认为 3000 5000 个 将添加到ObservableCollection绑定到一些可视化界面 目前 添加它们的过程非常慢 大约 4 秒 1000 个项目 当然 GUI 在此期间没有响应 有什么好方法
  • 等待 5-10 秒,然后运行 ​​Outlook 代码

    我的 Outlook 规则中有 VBA 代码 我希望当我收到具有特定主题的电子邮件时 Outlook 开始运行脚本 但是 当收到电子邮件时 Outlook 立即开始运行代码以获取上一封电子邮件 这可能是因为电子邮件刚刚收到且尚未移动到特定文
  • Android:将额外内容从一个活动传递到另一活动

    我有一个填充到活动 Main java 的 JSON 文件 此活动显示了来自我的 JSON 条目上的 URL 的 3 个随机图像 我想要做的是 我的 JSON 上有 13 个不同的条目 每当我单击显示的随机图片时 它都会转到另一个活动 Pr
  • keyup 绑定在 Firefox 中不起作用

    你可以在这里看到我的项目 http www inluxphoto com custom jsgallery index php http www inluxphoto com custom jsgallery index php 我试图让左
  • 正则表达式模式“pL”有什么作用? [复制]

    这个问题在这里已经有答案了 有一个常见的正则表达式用于 slugify url pL d u但什么是 pL在第一个preg replace mean 这里有些例子 如何在 slugify 函数中将 替换为 https stackoverfl
  • 通过 Spring Config 将“硬编码”构造函数 Arg Class 传递给 bean

    我有一个正在注入到服务中的通用类型 由于 Java 中泛型的实现方式 我需要一个构造函数 arg 或属性设置器 来保存泛型类型参数的类信息 我的问题是 我可以通过属性注入或指定构造函数参数 用 spring 传入 Class 的实例吗 我确
  • 以编程方式更新 Excel 文档

    首先 我是一家软件开发公司自动化团队的实习学生 因此我帮助在日常构建中开发自动化测试程序 我的直线经理制作了一份 Excel 文档 将用于展示我们测试环境的结果 我们的测试在 hyper V 服务器上的虚拟 PC 上运行 我希望能够使用每个
  • MongoDB批量运算符,如果不存在则插入

    我正在使用 MongoDB 批量操作来插入文档 我想做的是插入 仅当未找到文档时 如果找到文档我不想更新 即 upsert 有什么想法如何做到这一点 然而 即使在这种情况下 var obj item test bulk find item
  • 单个 PDO 查询意外达到 PHP 内存限制?

    我有一个非常简单的查询 如下所示 result pdo gt query SELECT FROM my table foreach result as r do some stuff 但是当我运行这个时 我收到以下错误 致命错误 第 15
  • 如何用Javascript让Javascript运行在页面的最后一个进程

    我遇到了一个麻烦 当页面加载时 我的 Javascript 会运行 并且 JS 日历会在我的 JS 之后加载 因此 我的 JS 不会影响 JS 日历 1 页面加载 2 我的JS运行 3 这里放一些东西 其他JS 4 JS日历启动 我在这里想
  • 将自定义验证规则添加到 Sonata User Bundle

    我已经根据文档安装了 SonataUserBundle 一切正常 除了我无法添加自定义验证规则 我的理解是 新规则应该添加到新的验证组中 然后更新 config yml 以告诉 SonataUserBundle 或 FosUserBundl
  • android中如何保持会话?

    谁能告诉我如何维护用户登录的会话 例如 当用户登录应用程序时 除非用户注销或卸载类似于 Android 中的 gmail 的应用程序 否则他们必须登录 为您开设一堂课SharedPreferences public class Sessio
  • 不区分大小写的令牌匹配

    是否可以将语法设置为不区分大小写匹配 例如一条规则 checkName CHECK Word 会匹配check name也CHECK name 的创造者PEGKit https github com itod pegkit here 当前执
  • Perl 中的 Web 服务客户端

    我是客户端 我希望调用 Web 服务的方法 我有一个 Web 服务地址 svc 后缀 并且有该方法的名称 返回值及其参数 该服务是通过 WCF HTML 端点 实现的 我希望通过以下方式调用这些方法SOAP Lite 我应该为 URI 代理
  • Facebook Connect“下一个”错误

    我正在尝试使用新的 Facebook 身份验证系统 但无法登录 我收到以下错误消息 API错误代码 100 API错误描述 无效参数 错误消息 next 不属于应用程序 发送到 Facebook 的网址是 请注意 网址中的 Next 变量是
  • 在一个查询中获取多个表

    一小时内发了三十个帖子 所以我很抱歉 但我没有得到我想要的 我会尝试解释更多 我有两张桌子 帖子 我想在这一页中显示所有帖子和评论 购买 1 条查询 我在帖子表中 100 个帖子 我在评论表中有 20条评论 我试试这个代码 qq mysql
  • 当我在拒绝后重新提交应用程序时,是否需要增加版本号? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我的应用程序被拒绝了 所以我已修改它并准备重新提交 我第一次提交的时候是1 0版本 这次重新提交是否需要增加版本号 不 您不需要更新版本号
  • C++ 主控/工人

    我正在寻找跨平台 C master worker 库或工作队列库 总体思路是 我的应用程序将创建某种任务或工作对象 将它们传递给工作主机或工作队列 后者又会在单独的线程或进程中执行工作 为了提供一些上下文 该应用程序是一个 CD 抓取器 我
  • sklearn MinMaxScaler() 与 groupby pandas

    我有两个特点rank and ratings不同日期从电子商务网站抓取的不同类别下的不同产品 ID 此处提供示例数据框 import pandas as pd import numpy as np import warnings warni