[机器学习与scikit-learn-32]：算法-回归-普通线性模型拟合非线性分布数据-分箱

# 1. 导入所需要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor

2.2 创建非线性分布的数据集

# 2. 创建需要拟合的数据集
rnd = np.random.RandomState(42) #设置随机数种子
X = rnd.uniform(-3, 3, size=100) #random.uniform，从输入的任意两个整数中取出size个随机数
#生成y的思路：先使用NumPy中的函数生成一个sin函数图像，然后再人为添加噪音
y = np.sin(X) + rnd.normal(size=len(X)) / 3 #random.normal，生成size个服从正态分布的随机数

#使用散点图观察建立的数据集是什么样子
plt.scatter(X, y,marker='o',c='k',s=20)
plt.show()

#为后续建模做准备：sklearn只接受二维以上数组作为特征矩阵的输入
print(X.shape)
X = X.reshape(-1, 1)
print(X.shape)

2.3 用原始数据集进行模型训练

（1）训练模型

# 3.1 使用原始数据训练模型
LinearR = LinearRegression()
LinearR = LinearR.fit(X, y)

TreeR = DecisionTreeRegressor(random_state=0)
TreeR = TreeR.fit(X, y)

（2）展示结果

#3.2 显示原始训练模型效果
# 放置画布
fig, ax1 = plt.subplots(1)
#创建测试数据：一系列分布在横坐标上的点
line_X = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)

#将测试数据带入predict接口，获得模型的拟合效果并进行绘制
ax1.plot(line_X, LinearR.predict(line_X), linewidth=2, color='green', label="linear regression")
ax1.plot(line_X, TreeR.predict(line_X), linewidth=2, color='red', label="decision tree")
#将原数据上的拟合绘制在图像上
ax1.plot(X[:, 0], y, 'o', c='k')
#其他图形选项
ax1.legend(loc="best")
ax1.set_ylabel("Regression output")
ax1.set_xlabel("Input feature")
ax1.set_title("Result before discretization")
plt.tight_layout()
plt.show()

2.4 分箱的基本原理

（1）分箱

# 4 分箱的基本原理
from sklearn.preprocessing import KBinsDiscretizer

#将数据分箱
#encode模式"onehot"：使用做哑变量方式做离散化
#之后返回一个稀疏矩阵(m,n_bins)，每一列是一个分好的类别
#对每一个样本而言，它包含的分类（箱子）中它表示为1，其余分类中它表示为0
enc = KBinsDiscretizer(n_bins=10          # 分10个箱子
                       ,encode="ordinal")  # 
X_binned = enc.fit_transform(X)
print("X.min=", X.min())
print("X.max=", X.max())
print("X.shape=", X.shape)
print("X.X_binned=", X_binned.shape)
print("X的前5个数据:\n", X[0:5])
print("X_binned的前5个数据:\n",X_binned[0:5])

X.min= -2.9668672972583856
X.max= 2.9213216196031038
X.shape= (100, 1)
X.X_binned= (100, 1)
X的前5个数据:
 [[-0.75275929]
 [ 2.70428584]
 [ 1.39196365]
 [ 0.59195091]
 [-2.06388816]]
X_binned的前5个数据:
 [[4.]
 [9.]
 [7.]
 [6.]
 [2.]]

（2）分箱的基本工作方式

# 4 分箱的基本工作方式
from sklearn.preprocessing import KBinsDiscretizer

#将数据分箱
#encode模式"onehot"：使用做哑变量方式做离散化
#之后返回一个稀疏矩阵(m,n_bins)，每一列是一个分好的类别
#对每一个样本而言，它包含的分类（箱子）中它表示为1，其余分类中它表示为0
enc = KBinsDiscretizer(n_bins=10          # 分10个箱子
                       ,encode="onehot")  #ordinal
X_binned = enc.fit_transform(X)
print("X.min=", X.min())
print("X.max=", X.max())
print("X.shape=", X.shape)
print("X.X_binned=", X_binned.shape)
print("X的前5个数据:\n", X[0:5])
print("X_binned的前5个数据:\n",X_binned[0:5])
# X_binned数据格式：
# 第一列：序号
# 第二列：onehot的编码位置
# 第三列：onehot的编码值

#使用pandas打开稀疏矩阵
import pandas as pd
pd.DataFrame(X_binned.toarray()).head()

X.min= -2.9668672972583856
X.max= 2.9213216196031038
X.shape= (100, 1)
X.X_binned= (100, 10)
X的前5个数据:
 [[-0.75275929]
 [ 2.70428584]
 [ 1.39196365]
 [ 0.59195091]
 [-2.06388816]]
X_binned的前5个数据:
   (0, 4)	1.0
  (1, 9)	1.0
  (2, 7)	1.0
  (3, 6)	1.0
  (4, 2)	1.0

Out[23]:

	2	4	6	7	9
0	0.0	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0	1.0
2	0.0	0.0	0.0	1.0	0.0
3	0.0	0.0	1.0	0.0	0.0
4	1.0	0.0	0.0	0.0	0.0

2.5 分箱数据预处理建模

分箱不属于拟合，而是数据预处理！！

# 5. 使用分箱数据进行建模和绘图

# 定义分箱对象
enc = KBinsDiscretizer(n_bins=10,encode="onehot")
#enc = KBinsDiscretizer(n_bins=10,encode="ordinal")

# 对输入样本进行等级分箱，分箱后，输入样本不在是连续量，而是离散量。
X_binned = enc.fit_transform(X)

line_binned = enc.transform(line_X)  # 分箱后，X轴数据被分割成10个段，即10个箱子。
print(line_X.shape)
print(line_binned.shape)
print("line_X.min=", line_X.min())
print("line_X.max=", line_X.max())
print("line_X.shape=", line_X.shape)
print("line_binned=", X_binned.shape)
print("line_X的前5个数据:\n", line_X[0:5])
print("line_binned的前5个数据:\n",line_binned[0:5])  # 分箱后的X不再连续

(1000, 1)
(1000, 10)
line_X.min= -3.0
line_X.max= 2.9939999999999998
line_X.shape= (1000, 1)
line_binned= (100, 10)
line_X的前5个数据:
 [[-3.   ]
 [-2.994]
 [-2.988]
 [-2.982]
 [-2.976]]
line_binned的前5个数据:
   (0, 0)	1.0
  (1, 0)	1.0
  (2, 0)	1.0
  (3, 0)	1.0
  (4, 0)	1.0

2.6 用分箱后的数据进行线性模型拟合（10个箱子）

#将两张图像绘制在一起，布置画布
fig, (ax1, ax2) = plt.subplots(ncols=2
                               , sharey=True #让两张图共享y轴上的刻度
                               , figsize=(10, 4))

#在图1中布置在原始数据上建模的结果
ax1.plot(line_X, LinearR.predict(line_X), linewidth=2, color='green',label="linear regression")
ax1.plot(line_X, TreeR.predict(line_X), linewidth=2, color='red', label="decision tree")
ax1.plot(X[:, 0], y, 'o', c='k')
ax1.legend(loc="best")
ax1.set_ylabel("Regression output")
ax1.set_xlabel("Input feature")
ax1.set_title("Result before discretization")

#使用分箱数据进行建模
LinearR_ = LinearRegression().fit(X_binned, y)
TreeR_ = DecisionTreeRegressor(random_state=0).fit(X_binned, y)

#进行预测，在图2中布置在分箱数据上进行预测的结果
ax2.plot(line_X #横坐标
         , LinearR_.predict(line_binned) #分箱后的特征矩阵的结果Y, 也不再是连续量，而是离散量。
         , linewidth=2
         , color='green'
         , linestyle='-'
         , label='linear regression')

ax2.plot(line_X, TreeR_.predict(line_binned), linewidth=2, color='red',linestyle=':', label='decision tree')
#绘制和箱宽一致的竖线
ax2.vlines(enc.bin_edges_[0] #x轴
           , *plt.gca().get_ylim() #y轴的上限和下限
           , linewidth=1
           , alpha=.2)

#将原始数据分布放置在图像上
ax2.plot(X[:, 0], y, 'o', c='k')
#其他绘图设定
ax2.legend(loc="best")
ax2.set_xlabel("Input feature")
ax2.set_title("Result after discretization")
plt.tight_layout()
plt.show()

#备注：
# 分箱后，线性模型可以拟合非线性数据
# 分箱后，可以克服决策的过拟合

2.7 不同箱子对线性模型拟合效果的影响（5个箱子做比较）

enc = KBinsDiscretizer(n_bins=5,encode="onehot")

2.8 如何动态评估不同箱子效果

# 7. 如何选取最优的箱数
from sklearn.model_selection import cross_val_score as CVS
import numpy as np
pred,score,var = [], [], []
#binsrange = [2,5,10,15,20,30]
binsrange = list(range(2,30))

for i in binsrange:
    #实例化分箱类
    enc = KBinsDiscretizer(n_bins=i,encode="onehot")
    #转换数据
    X_binned = enc.fit_transform(X)
    line_binned = enc.transform(line_X)
    
    #建立线性模型
    LinearR_ = LinearRegression()
    
    #全数据集上的交叉验证
    cvresult = CVS(LinearR_, X_binned,y,cv=5)
    
    # 记录分数
    score.append(cvresult.mean())
    var.append(cvresult.var())
    #测试数据集上的打分结果
    pred.append(LinearR_.fit(X_binned,y).score(line_binned,np.sin(line_X)))

#绘制随着箱子数目的变化，交叉验证的分数
plt.figure(figsize=(6,5))
plt.plot(binsrange,pred,c="orange",label="test")
plt.plot(binsrange,score,c="k",label="full data")
plt.plot(binsrange,score+np.array(var)*0.5,c="red",linestyle="--",label = "var")
plt.plot(binsrange,score-np.array(var)*0.5,c="red",linestyle="--")
plt.legend()
plt.show()

#备注：
# 1. 从图形可以看出，随着箱子数目的增加，交叉验证的分数在数据上会逐渐增加。
# 2. 但当箱子的数目超过20之后，交叉验证的分数反而是下降的
# 3. 测试集的分数要高于全数据集

mapping = [*zip(pred, binsrange)]
mapping = sorted(mapping,reverse = True)
mapping

[(0.9660434948725315, 19),
 (0.9652516448868957, 21),
 (0.9639830451101487, 24),
 (0.9622614514281138, 12),
 (0.9620400358666081, 14),
 (0.9619989011062795, 23),
 (0.9590978882491229, 15),
 (0.9585720815564842, 18),
 (0.9584114197704767, 26),
 (0.957237960534212, 16),
 (0.9566086751329097, 20),
 (0.9541740734521215, 17),
 (0.9524184920312658, 22),
 (0.9513138137979673, 11),
 (0.9505447185393926, 28),
 (0.950463224130405, 29),
 (0.9486284965918873, 9),
 (0.946414455583129, 13),
 (0.9452817343808607, 25),
 (0.9449968422975642, 27),
 (0.9441330750510549, 10),
 (0.938682004554821, 8),
 (0.9209034773625397, 7),
 (0.9171762233471714, 6),
 (0.8649069759304867, 5),
 (0.8344479728983831, 4),
 (0.8239109278531977, 2),
 (0.7478242248690032, 3)]

备注：

分数排名前三的箱子数目为：19,21,24。

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/123562666

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习与scikitlearn

机器学习

算法

scikitlearn

分箱

[机器学习与scikit-learn-32]：算法-回归-普通线性模型拟合非线性分布数据-分箱的相关文章

如何创建包含特征选择和 KerasClassifier 的 sklearn Pipeline？ GridSearchCV 期间 input_dim 更改的问题

我创建了一个 sklearn Pipeline 它使用 SelectPercentile f classif 进行通过管道传输到 KerasClassifier 的特征选择 SelectPercentile 使用的百分位是网格搜索中的超参数
在不同的数据集上运行经过训练的机器学习模型

我是机器学习的新手正在尝试在另一个相同格式的数据集上运行一个简单的分类模型该模型是我使用 pickle 训练和保存的我有以下 python 代码 Code Training set features pd read csv Data
Sklearn LogisticRegressionCV 的类似数组的输入

最初我从a读取数据 csv文件但在这里我从列表构建数据框以便可以重现问题目的是使用交叉验证来训练逻辑回归模型LogisticRegressionCV indeps M F M F M M F M M F F F F F M F F
MiniBatchKMeans OverflowError：无法将浮点无穷大转换为整数？

我正在尝试找到正确数量的簇 k 根据轮廓分数使用sklearn cluster MiniBatchKMeans from sklearn cluster import MiniBatchKMeans from sklearn feature
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
Scikit - 如何定义绘制 roc 曲线的阈值

我有一个增强树模型以及测试数据集的概率和分类我正在尝试绘制相同的 roc curve 但我无法弄清楚如何在 scikit learn 中定义 roc 曲线的阈值 alpha from sklearn metrics import prec
Sklearn 随机森林回归器的错误

当尝试使用 y 数据拟合随机森林回归器模型时如下所示 0 00000000e 00 1 36094276e 02 4 46608221e 03 8 72660888e 03 1 31375786e 04 1 73580193e 04 2
仅正样本和未标记数据集的二元半监督分类

我的数据由评论组成保存在文件中其中很少被标记为正面我想使用半监督和PU http www cs uic edu liub publications ICDM 03 pdf分类将这些评论分为正面和负面类别我想知道 python sci
分组时间序列（面板）数据的交叉验证

我使用面板数据随着时间的推移我观察许多单位例如人对于每个单元我都有相同固定时间间隔的记录当将数据分为训练集和测试集时我们需要确保这两个集是不相交的并且顺序的即训练集中的最新记录应该在测试集中最早的记录之前参见例如此博客文章
scikit-learn：SVC 和 SGD 有什么区别？

SVM http scikit learn org stable modules svm html classification http scikit learn org stable modules svm html classific
将 python scikit learn 模型导出到 pmml

我想将 python scikit learn 模型导出到 PMML 中什么 python 包最适合我读到Augustus https github com opendatagroup augustus 但我找不到任何使用 scikit
ValueError: n_splits=10 不能大于每个类中的成员数

我正在尝试运行以下代码 from sklearn model selection import StratifiedKFold X hey join now hello join today join us now not today jo
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项
sklearn：使用 Pipeline 和 TransformedTargetRegressor 缩放 x（数据）和 y（目标）

我想使用 Pipeline 和 TransformedTargetRegressor 来处理所有缩放数据和目标是否可以混合 Pipeline 和 TransformedTargetRegressor 如何从 TransformedTar
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
使用 imblearn 管道进行交叉验证之前或之后是否发生过采样？

在对训练数据进行交叉验证以验证我的超参数之前我已将数据分为训练测试我有一个不平衡的数据集并且想要在每次迭代中执行 SMOTE 过采样因此我使用以下方法建立了一个管道imblearn 我的理解是将数据分成k折后应该进行过采样以防
Python sklearn 多标签分类：用户警告：所有训练示例中都存在标签不是 226

我正在尝试多标签分类问题我的数据看起来像这样 DocID Content Tags 1 some text here 70 2 some text here 59 3 some text here 183 4 some text here
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx

随机推荐

01--背包问题以及构造最优解

目录 1 01 背包问题 2 构造最优解 3 动态规划法求解01 背包问题的局限性 1 01 背包问题 01 背包问题就是有n个物品它们有各自的体积和价值现有给定容量的背包如何让背包里装入的物品具有最大的价值总和一个物品只有装与不
调试flex程序

如果程序编译时报错需要修改程序有时还要进行调试在Flash中最常用的调试方式是使用trace函数将想要检测的对象或函数运行结果在输出面板中打印出来在Flex中同样可以使用trace函数来进行调试修改上面的代码
自动代码生成 - 使用Seq2Seq模型在代码生成数据集上进行自动代码生成任务。

1 引言自动代码生成是一个具有挑战性和实用性的任务它可以帮助开发人员自动化生成代码提高开发效率在这篇博客中我们将介绍如何使用Seq2Seq模型进行自动代码生成任务并在代码生成数据集上进行实验我们将使用Python作为代码生成语
SeleniumLibrary4.5.0 关键字详解（一）

SeleniumLibrary4 5 0 关键字详解一库版本 4 5 0 库范围全局命名参数受支持简介 SeleniumLibrary是Robot Framework的Web测试库本文档说明了如何使用SeleniumLibra
leetcode 编写一个函数来查找字符串数组中的最长公共前缀。

编写一个函数来查找字符串数组中的最长公共前缀如果不存在公共前缀返回空字符串 string longestCommonPrefix vector
Flutter控件之CircularProgressIndicator

CircularProgressIndicator的作用 Flutter中的CircularProgressIndicator是一个圆形进度指示器用于表示正在进行的任务的进度它通常用于长时间运行的任务例如文件下载网络请求等 Circ
vue-amap生成地图遮罩层、点标记和弹窗
vmware 安装window server 2012 完只有命令窗口

原因是解决办法输入 Dism online enable feature all featurename Server Gui Mgmt featurename Server Gui Shell featurename ServerCo
signature=27dcc93dc9d59db77c2d43c8888c8f5d,ftv-20201027

0001659166 20 000184 txt 20201027 0001659166 20 000184 hdr sgml 20201027 20201027162536 ACCESSION NUMBER 0001659166 20 0
TypeError: Argument ‘bb’ has incorrect type (expected numpy.ndarray, got list)

问题说明这个问题是在mmdetect中使用使用自己做的coco数据集用maskrcnn做目标检测时遇到的主要原因是你的json文件里面的segmentation中的数据不符合要求正常来说这里面是类似于 x y x y x y x y
C++中placement new操作符（经典）

C 中placement new操作符经典 placement new是重载operator new的一个标准全局的版本它不能被自定义的版本代替不像普通的operator new和operator delete能够被替换成用户自定义
static和final、抽象类使用详解

这里写目录标题 static 静态导入包 final 抽象类 abstract 接口interface 这里是引用 static 放在方法上就是静态方法放在属性上的就是静态属性可以通过类名直接调用属性用在方法上同理另外我们可以在非
使用jQuery实现返回顶部功能
JS 树（数组存储）进行递归遍历获取路径

JS 树数组存储进行递归遍历获取路径实现功能通过叶子节点 id 寻找包含该叶子节点的整条路径树的数据以数组形式保存直接上代码 const getPathByKey curKey data gt let result 记录路径结果
python 使用sphinx 快速生成说明文档

目录 python 使用sphinx 快速生成说明文档 1 安装sphinx 2 文件结构 3 修改配置文件 4 生成html文档生成markdown文档 1 安装依赖 2 修改配置文件 3 生成markdown文档 python 使用s
矩阵论—凯莱-哈密顿定理

凯莱哈密顿定理内容凯莱哈密顿定理典型例题典型例题我们先来观察这个题目题目要求若直接将矩阵A 代入计算则会非常复杂因此这条路是走不通的我们试着引入我们今天介绍的凯莱哈密顿定理来解这个题目令我们要求即求即可接下来
C++ 友元

友元一般存在于不同类之间在一个类中可以用全局函数作友元函数而在不同类中类成员函数作友元函数友元可以是一个函数该函数被称为友元函数函数既可以是全局也可以是类的成员友元也可以是一个类该类被称为友元类同类对象间无私处异类对象
C语言实现惯导系统的间接粗对准

C语言实现惯导系统的间接粗对准惯导系统是一种常见的导航系统用于测量和跟踪飞行器的位置速度和方向其中的粗对准是指通过传感器测量的数据进行校准以提高系统的准确性和稳定性本文将介绍如何使用C语言实现惯导系统的间接粗对准算法并提供相应
json文件解析出现异常

今天在尝试用自带的NSJSONSerialization方法来解析本地json文件的时候碰到了系统异常 app自动终止问题如下代码
[机器学习与scikit-learn-32]：算法-回归-普通线性模型拟合非线性分布数据-分箱

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 123562666 目录前言第1章

	2	4	6	7	9
0	0.0	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0	1.0
2	0.0	0.0	0.0	1.0	0.0
3	0.0	0.0	1.0	0.0	0.0
4	1.0	0.0	0.0	0.0	0.0

	2	4	6	7	9
0	0.0	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0	1.0
2	0.0	0.0	0.0	1.0	0.0
3	0.0	0.0	1.0	0.0	0.0
4	1.0	0.0	0.0	0.0	0.0

[机器学习与scikit-learn-32]：算法-回归-普通线性模型拟合非线性分布数据-分箱

前言：

第1章 分箱机制

分箱的本质： 用多个线段替代一个直线对目标样本数据进行拟合

第2章 代码实现

2.1 导入库

2.2 创建非线性分布的数据集

2.3 用原始数据集进行模型训练

2.4 分箱的基本原理

2.5 分箱数据预处理建模

2.6 用分箱后的数据进行线性模型拟合（10个箱子）

2.7 不同箱子对线性模型拟合效果的影响（5个箱子做比较）

2.8 如何动态评估不同箱子效果

[机器学习与scikit-learn-32]：算法-回归-普通线性模型拟合非线性分布数据-分箱 的相关文章

随机推荐

热门标签

第1章分箱机制

分箱的本质：用多个线段替代一个直线对目标样本数据进行拟合

第2章代码实现

[机器学习与scikit-learn-32]：算法-回归-普通线性模型拟合非线性分布数据-分箱的相关文章

	2	4	6	7	9
0	0.0	1.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0	1.0
2	0.0	0.0	0.0	1.0	0.0
3	0.0	0.0	1.0	0.0	0.0
4	1.0	0.0	0.0	0.0	0.0