Python：scikit learn 中正态分布的特征选择

2024-06-19

我有一个pandasDataFrame，其索引是唯一用户标识符、与唯一事件对应的列以及值 1（已参加）、0（未参加）或 NaN（未受邀请/不相关）。相对于 NaN，该矩阵相当稀疏：有数百个事件，而大多数用户最多只被邀请参加数十个。

我创建了一些额外的列来衡量“成功”，我将其定义为相对于邀请的参加百分比：

my_data['invited'] = my_data.count(axis=1)
my_data['attended'] = my_data.sum(axis=1)-my_data['invited']
my_data['success'] = my_data['attended']/my_data['invited']

假设以下内容为真：成功数据应服从均值 0.80 和 s.d 的正态分布。 0.10。当我查看直方图时my_data['success']它不正常并且向左倾斜。这在现实中是否属实并不重要。我只是想解决我下面提出的技术问题。

所以这是我的问题：有些事件我认为并不“好”，因为它们使成功数据偏离了正常情况。我想对我的事件进行“特征选择”，以选择其中的一个子集，这使得分布my_data['success']尽可能接近正常的意义上“分布收敛” http://en.wikipedia.org/wiki/Convergence_of_random_variables#Convergence_in_distribution.

我看了看scikit-learn“特征选择”方法here http://scikit-learn.org/stable/modules/feature_selection.html“单变量特征选择”似乎是有道理的。但我对两者都很陌生pandas and scikit-learn并且确实可以使用有关如何在代码中实际实现此功能的帮助。

限制条件：我需要保留至少一半的原始事件。

任何帮助将不胜感激。请尽可能多地分享详细信息，我对这些库非常陌生，很想看看如何使用我的 DataFrame 来做到这一点。

Thanks!

EDIT: 又看了一些之后scikit-learn特征选择方法，“递归特征选择”似乎在这里也有意义，但我不确定如何用我的“准确性”指标“接近正态分布且平均值......”来构建它

请记住，特征选择是选择特征，而不是样本，即（通常）您的列DataFrame，而不是行。所以，我不确定特征选择是否是您想要的：我知道您想要删除那些导致分布倾斜的样本？

另外，特征缩放（例如标准化）怎么样，以便您的数据成为平均值 = 0 和 sd = 1 的正态分布？

方程很简单： z = (x - 平均值) / sd

要将其应用到您的 DataFrame，您只需执行以下操作

my_data['success'] = (my_data['success'] - my_data['success'].mean(axis=0)) / (my_data['success'].std(axis=0))

但是，也不要忘记保留均值和 SD 参数来转换测试数据。或者，您也可以使用StandardScaler http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html来自 scikit-learn

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python：scikit learn 中正态分布的特征选择的相关文章

优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a

随机推荐

如何强制串行端口写入方法在发送数据之前等待线路清除？

以下是我正在尝试做的一些背景打开从移动设备到蓝牙打印机的串行端口将 EPL 2 表格发送到蓝牙打印机以便它了解如何处理即将接收的数据收到表格后将一些数据发送到打印机这些数据将打印在标签纸上根据需要多次重复步骤 3 打印每个标签
即使没有结果也返回一个值

我有这种简单的查询它返回给定 id 的非空整数字段 SELECT field1 FROM table WHERE id 123 LIMIT 1 问题是如果找不到 id 结果集就是空的我需要查询始终返回一个值即使没有结果我有这个东西工
如何使用div绘制曲线？

我需要使用 CSS 绘制两条曲线我尝试过组装一些divs 使用CSSborder radius绘制弧形面板但结果很糟糕还有更好的算术吗正如我之前在评论中提到的请不要使用CSS用于实现复杂的曲线和形状虽然仍然可以使用 CSS 来实
添加 Google Play Services 9.0.0 后 Dex 文件超过 64k

我按照 Firebase 指南添加 FCM 因此我将以下依赖项添加到我的应用程序 gradle 中 compile com google android gms play services 9 0 0 apply plugin com go
重新渲染列表模板导致页面滚动到顶部

我有一些模板大致如下所示
只获取倒数第二条记录 - mysql-query

我有一个如下表记录 my table id rating description 1 0 0 bed 2 1 0 good 3 0 0 bed 4 1 0 good 5 0 0 bed 6 0 0 bed 7 0 0 bed 现在我通过评级
SSE：如何将 _m128i._i32[4] 减少到 _m128i._i8

我对 SSE 编码非常陌生我想将 int32 类型的 m128i 4 的结果存储到 int8 类型的 m128i 中 m128i j i32 k 的值均在 127 和 127 之间我认为伪代码如下 result i8 vec1 i8 0
Ruby 在 Windows 上找不到 sqlite3 驱动程序

我正在尝试在 Windows 上设置 Ruby on Rails 我正在使用看起来不错的 Flash Rails 发行版但是 sqlite3 有一个问题我发现线程告诉我安装版本 1 2 3 安装得很好我使用的是 ruby 1 9 0
程序堆栈真的会溢出吗？

如果达到堆栈大小限制处理器是否会导致操作系统出现 TRAP 从而防止堆栈溢出 P 我相信 Windows 确实有一个堆栈当您到达末尾时它会增长在 Visual Studio 编译器中负责此操作的代码位于chkstk obj modu
C++11 容器/适配器属性的实用总结/参考？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在寻找各种 C 11 标准容器和容器适配器的重要属性的全面总结参考也可以选择包括 boost Qt 但是按这些属性索引而不是通常的每个容器文档
辍学训练

如何对由 dropout 产生的许多薄层进行平均在测试阶段要使用哪些重量我对这个问题真的很困惑因为每个细化层都会学习一组不同的权重那么反向传播是为每个稀疏网络单独完成的吗这些细化网络之间的权重究竟是如何共享的因为在测试时仅使用一
在 ASP.NET 中动态设置主题

我有一个连接到不同域的应用程序我没有复制和修改每个应用程序而是在硬盘驱动器上使用相同的物理位置但在 IIS 上使用单独的应用程序池和网站基本上我想根据主机名更改主题 IE 用户访问 websome com 获取 websome 主题
在 ruby 中创建登录会话时理解“current_user”概念

我正在阅读很棒的 Michael Hartl 教程来构建 ruby 应用程序here http ruby railstutorial org chapters sign in sign out sec 3acurrent user 我试图理
将具有子目录的域转发到具有子目录的其他域

我有一个热爱域名的客户更喜欢转发域名其中许多域没有与其关联的网站它们仅用于营销和转发我知道如何轻松地将一个域转发到另一个域但我好奇的是如何将这些域的特定 url 转发到其他特定 url 例如 www site1 com 目录 gt
Git 中的数据完整性？

我现在已经多次听到提到 Git 提供数据完整性但是这是什么意思据我所知 git 中的所有对象都是使用 SHA 1 校验和来访问的并且该校验和是根据文件的内容计算的这意味着如果文件发生更改您将得到不同的校验和但这如何提供数据完整
切换按钮不适用于 AngularJS 和 Angular ui Bootstrap

切换按钮出现但不起作用我现在在网上也有相同的代码但它不起作用但在 Plunker 中它可以工作 Plunker 切换按钮正在工作 http plnkr co edit R5F5D1FGyHiv9X1cfOoa p preview 在
使用 LWP::Agent 的 Perl JSON::RPC::Client

我被要求不使用 JSON RPC Client 而是使用 LWP 进行调用这是我的代码 Server usr bin perl use strict use lib use ServerLib use JSON RPC Server Da
php将多维数组内爆为制表符分隔行

我有一个多维数组 BlockData 其中有 13 个维度和 n 个数组元素我需要将此数组内爆回单个长字符串其中元素由 n 换行和尺寸由 t tabs 我尝试过使用array map 功能没有成功需要帮助来完成此任务请帮忙这可以使
Heroku 应用程序上的 Nodejs Express EACCES 0.0.0.0:80

我正在尝试在他们的网站上新创建的 Heroku 应用程序上运行 Node 应用程序我按照他们的步骤操作但在显示应用程序状态时仍然遇到错误我跟着Node js 入门 https devcenter heroku com articles
Python：scikit learn 中正态分布的特征选择

我有一个pandasDataFrame 其索引是唯一用户标识符与唯一事件对应的列以及值 1 已参加 0 未参加或 NaN 未受邀请不相关相对于 NaN 该矩阵相当稀疏有数百个事件而大多数用户最多只被邀请参加数十个我创建了一些额

Python：scikit learn 中正态分布的特征选择

Python：scikit learn 中正态分布的特征选择 的相关文章

随机推荐

热门标签

Python：scikit learn 中正态分布的特征选择的相关文章