sklearn中如何对连续属性进行离散化？

2023-11-26

我的数据由连续特征和分类特征混合组成。下面是我的数据的 csv 格式的一个小片段（将其视为由在不同城市经营商店的超级连锁店收集的数据）

city,avg_income_in_city,population,square_feet_of_store_area,  store_type ,avg_revenue
NY  ,54504            , 3506908   ,3006                       ,INDOOR    , 8000091
CH  ,44504            , 2505901   ,4098                       ,INDOOR    , 4000091
HS  ,50134            , 3206911   ,1800                       ,KIOSK     , 7004567
NY  ,54504            , 3506908   ,1000                       ,KIOSK     , 2000091

您可以看到 avg_venue_in_city、square_feet_of_store_area 和 avg_revenue 是连续值，而 city、store_type 等是分类类（为了保持数据的简洁性，我没有在此处显示更多内容）。

我希望对数据进行建模以预测收入。问题是如何使用 sklearn“离散化”连续值？ sklearn 是否提供任何“现成”的类/方法来连续值的离散化？（就像我们在 Orange 中一样，例如 Orange.Preprocessor_discretize(data, method=orange.EntropyDiscretization())

Thanks !

更新（2018 年 9 月）：截至版本0.20.0，有一个函数，sklearn.preprocessing.KBinsDiscretizer，它使用几种不同的策略提供连续特征的离散化：

统一大小的垃圾箱
内部装有“相同”数量样本的箱（尽可能多）
基于 K 均值聚类的 bin

不幸的是，目前该函数不接受自定义间隔（这对我来说很糟糕，因为这就是我想要的，也是我最终来到这里的原因）。如果你想达到同样的目的，你可以使用 Pandas 函数cut:

import numpy as np
import pandas as pd
n_samples = 10
a = np.random.randint(0, 10, n_samples)

# say you want to split at 1 and 3
boundaries = [1, 3]
# add min and max values of your data
boundaries = sorted({a.min(), a.max() + 1} | set(boundaries))

a_discretized_1 = pd.cut(a, bins=boundaries, right=False)
a_discretized_2 = pd.cut(a, bins=boundaries, labels=range(len(boundaries) - 1), right=False)
a_discretized_3 = pd.cut(a, bins=boundaries, labels=range(len(boundaries) - 1), right=False).astype(float)
print(a, '\n')
print(a_discretized_1, '\n', a_discretized_1.dtype, '\n')
print(a_discretized_2, '\n', a_discretized_2.dtype, '\n')
print(a_discretized_3, '\n', a_discretized_3.dtype, '\n')

其产生：

[2 2 9 7 2 9 3 0 4 0]

[[1, 3), [1, 3), [3, 10), [3, 10), [1, 3), [3, 10), [3, 10), [0, 1), [3, 10), [0, 1)]
Categories (3, interval[int64]): [[0, 1) < [1, 3) < [3, 10)]
 category

[1, 1, 2, 2, 1, 2, 2, 0, 2, 0]
Categories (3, int64): [0 < 1 < 2]
 category

[1. 1. 2. 2. 1. 2. 2. 0. 2. 0.]
 float64

请注意，默认情况下，pd.cut返回 dtype 的 pd.Series 对象Category具有类型元素interval[int64]。如果您指定自己的labels，输出的 dtype 仍然是Category，但元素的类型为int64。如果您希望该系列具有数字 dtype，您可以使用.astype(np.int64).

我的示例使用整数数据，但它应该与浮点数一样工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikitlearn

discretization

sklearn中如何对连续属性进行离散化？的相关文章

Python：UnicodeDecodeError：“utf8”编解码器无法解码字节

我正在将一堆 RTF 文件读入 python 字符串中在某些文本上我收到此错误 Traceback most recent call last File 11 08 py line 47 in
如何在 jupyter 笔记本中导入 scikit-learn？

我创建了一个新的 conda 环境来使用 scikit learn 并使用conda install
无法通过Anaconda/jupyter获取MNIST数据库

Hu guys 我是 python anaconda jupyter numPy panda 等的新手所以如果这是一个非常愚蠢的问题请原谅我我正在尝试使用 anaconda jupyter 获取 MNIST 数据库但每次我最后都会收
计算 scikit-learn 逻辑回归模型的残差偏差

有没有办法计算残差scikit learn 逻辑回归模型 http scikit learn org stable modules generated sklearn linear model LogisticRegression html
SciKit-Learn 的分解模块中未安装 LatentDirichletAllocation

我在 SciKit Learn 包中遇到了一些奇怪的问题 SciKit Learn 包内有分解模块其中应包含 LatentDirichletAllocation 函数请参阅此处的文档 https scikit learn org s
Pandas sklearn one-hot 编码数据帧还是 numpy？

如何将 pandas 数据帧转换为 sklearn one hot encoded 数据帧 numpy 数组其中某些列不需要编码 mydf pd DataFrame Target 0 1 0 0 1 1 1 GroupFoo 1 1 2
ImageDataGenerator 预测类 - 为什么预测未正确从概率转换为预测类？

我有一个这样设置的目录 images val class1 class2 test all classes train class1 class2 每个目录中都有一组图像我想预测测试中的每个图像是否属于 1 类或 2 类我写这个是为了读
将 python scikit learn 模型导出到 pmml

我想将 python scikit learn 模型导出到 PMML 中什么 python 包最适合我读到Augustus https github com opendatagroup augustus 但我找不到任何使用 scikit
Scikit-learn 具有使用“特征”的自定义评分函数

我正在尝试使用一种名为 SERA 平方误差相关区域的新指标作为本文中提到的不平衡回归的自定义评分函数 https link springer com article 10 1007 s10994 020 05900 9 https lin
scikit-learn - 具有置信区间的 ROC 曲线

我可以使用 ROC 曲线scikit learn with fpr tpr thresholds metrics roc curve y true y pred pos label 1 where y true是基于我的黄金标准的值列表即
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
sklearn pipeline + keras顺序模型-如何获取历史记录？

Keras https keras io模型当 fit被调用时返回一个历史对象如果我将此模型用作 sklearn 管道的一步是否可以检索它顺便说一句我正在使用 python 3 6 提前致谢 History 回调记录每个时期的训
使用 imblearn 管道进行交叉验证之前或之后是否发生过采样？

在对训练数据进行交叉验证以验证我的超参数之前我已将数据分为训练测试我有一个不平衡的数据集并且想要在每次迭代中执行 SMOTE 过采样因此我使用以下方法建立了一个管道imblearn 我的理解是将数据分成k折后应该进行过采样以防
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
如何在sklearn管道中通过特征消除选择特征名称？

我在 sklearn 管道中使用递归特征消除管道看起来像这样 from sklearn pipeline import FeatureUnion Pipeline from sklearn import feature selection
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
从 scikit_learn 反转 MinMaxScaler

为了为我的生成神经网络提供数据我需要将一些数据标准化在 1 和 1 之间我用MinMaxScaler来自 Sklearn 效果很好现在我的生成器将输出 1 到 1 之间的数据如何恢复MinMaxScaler获得真实数据让我们首先
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
Scikit Learn GridSearchCV 无需交叉验证（无监督学习）

是否可以在没有交叉验证的情况下使用 GridSearchCV 我正在尝试通过网格搜索优化 KMeans 聚类中的聚类数量因此我不需要或想要交叉验证 The 文档 http scikit learn org stable modules g

随机推荐

并行运行一组 TaskEithers，但如果 1 个或多个任务失败则继续

我必须并行进行一组 IO 调用如果成功则合并调用的内容如果其中一个失败其他的将按正常方式处理但会出现一条错误消息我对如何实现这一点的思考过程 Array
For-In 循环多个条件

随着 Xcode 7 3 的新更新出现了很多与新版本 Swift 3 相关的问题其中一个问题是 C 风格的 for 语句已被弃用将在未来版本的 Swift 中删除这出现在传统的 Swift 版本中 for声明其中一个循环有多个条件
更改导航后退按钮的目的地

如何更改默认导航后退按钮将我带到的视图控制器后退按钮通常会将您带回到上一个视图控制器但是如果我想让它通过两个视图控制器返回怎么办我的意思是我想更改后退按钮将我带到的视图控制器我不喜欢创建自定义后退按钮那么还有其他办法吗可能是与后
不同方法名的接口实现

我有这个界面 public interface INameScope void Register string name object scopedElement object Find string name void Unregiste
对于不使用 Emacs 的 Windows 用户是否值得交换 Ctrl 和 Caps Lock

我已经了解 Steve Yegge 的建议交换 Ctrl 和 Caps Lock虽然我不使用 Emacs 但已经有一段时间了我刚刚尝试将它们交换作为实验但发现很难调整现在有几个快捷键对我来说已经是第二天性了但我还没有意识到它们在我使
使用正则表达式进行 LDAP 搜索

有没有办法可以使用字段的正则表达式在 LDAP 上进行搜索我在用LDAP搜索或 Sun Java System Directory Server 控制中心进行搜索答案是否定的你不能为什么因为 LDAP 标准将 LDAP SEAR
Python。 Matplotlib 倒置图像

我不知道这里出了什么问题 import matplotlib pyplot as plt im plt imshow plt imread tas png plt show 并且Y轴反转了所以我写了一篇论证origin lower im
将数学表达式中的^（幂）符号替换为C的pow语法

我有一个数学表达式例如 2 x 3 2 x 5 7 10 0 5 我需要更换符号到powC语言的函数我认为正则表达式是我所需要的但我不知道像专业人士那样的正则表达式所以我最终得到了这个正则表达式 s s 我不知道如何改进这一点你
在父级 Shiny 服务器中调用反应式数据集的 Shiny 模块

我正在寻求移植一些较旧的闪亮应用程序以使用闪亮模块但在尝试移植我的反应式表达式时遇到了麻烦根据文档目标不是阻止模块与其交互包含应用程序而是使这些交互变得明确如果一个模块需要使用反应式表达式取反应式表达式作为函数参数我有现
Monotouch和XCode 4，风口去哪儿了？

今天我用最新版本的 MonoDevelop MonoTouch 和 Mono Framework 更新了我的 mac 我还下载了最新版本的 XCode 版本 4 一个漂亮的 4 5 gig 下载起初我没有注意到它因为我正忙着将代码复制到
Clojure 中的多态模式验证

我想使用架构来验证请求对象映射中的值之一决定哪些其他字段有效例如这些都是有效的 name jane type dog barking true name alan type bird cheeping true name bert t
失败，因为：de.measite.minidns.hla.ResolutionUnsuccessfulException：请求 xxxx。 IN AAAA 产生错误响应 NX_DOMAIN

在我升级 smack 到 4 2 0 后我遇到了连接问题 The following addresses failed xxxx 5222 failed because de measite minidns hla ResolutionU
无需数据绑定即可渲染值

在 AngularJS 中如何在没有 2 路数据绑定的情况下渲染值出于性能原因或者甚至在给定时间点渲染一个值人们可能想要这样做以下示例均使用数据绑定 div value div div div 我如何渲染value 没有任何数据绑
Hibernate：将基类的实例更改为子类

我想将一个具体的超类更改为其子类之一我在下面提供了一个示例 Entity Table name employees Inheritance strategy InheritanceType JOINED public class Empl
如何将“YYYY-MM-DD hh:mm:ss”格式的日期转换为 UNIX 时间戳

如何转换格式为 YYYY MM DD hh mm ss 的时间例如 2011 07 15 13 18 52 到 UNIX 时间戳我尝试了这段Javascript代码 date new Date 2011 07 15 getTime 10
为什么 Composer 在 300 秒后设置超时？

我有一个用 symfony2 制作的小项目当我尝试在我的服务器上构建它时解压缩 symfony 时总是失败构建正常突然作曲家无法解压 symfony 我没有更改任何内容我尝试使用 Jenkins 构建也尝试从 bash 手动构建
可变参数方法覆盖/重载混乱

方案1 class B public void m1 int x System out println Super class class A extends B public void m1 int x System out printl
为什么字符串不比较引用？

我知道这是特殊情况但为什么字符串之间的在它们的值相等时返回而不是在它们的引用相等时返回这与重载运算符有关系吗 The 运算符重载于String事实上执行值相等而不是引用相等这个想法是让字符串对程序员更加友好并避免使用引用相等来
如何在OpenSSL中设置连接超时和操作超时

libcurl 有超时选项像这些 CURLOPT CONNECTTIMEOUT maximum time in seconds that you allow the connection to the server to take CURL
sklearn中如何对连续属性进行离散化？

我的数据由连续特征和分类特征混合组成下面是我的数据的 csv 格式的一个小片段将其视为由在不同城市经营商店的超级连锁店收集的数据 city avg income in city population square feet of sto

sklearn中如何对连续属性进行离散化？

sklearn中如何对连续属性进行离散化？ 的相关文章

随机推荐

热门标签

sklearn中如何对连续属性进行离散化？的相关文章