DecisionTreeRegressor 的 Predict_proba 的等效项

2024-03-14

scikit-learn 的DecisionTreeClassifier支持通过以下方式预测每个类别的概率predict_proba()功能。这不存在于DecisionTreeRegressor:

AttributeError：“DecisionTreeRegressor”对象没有属性“predict_proba”

我的理解是，决策树分类器和回归器之间的基本机制非常相似，主要区别在于回归器的预测是作为潜在叶子的平均值来计算的。所以我希望能够提取每个值的概率。

是否有另一种方法来模拟这个，例如通过处理树结构 https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html#sphx-glr-auto-examples-tree-plot-unveil-tree-structure-py? The code https://github.com/scikit-learn/scikit-learn/blob/55bf5d9/sklearn/tree/tree.py#L804 for DecisionTreeClassifier's predict_proba不能直接转让。

该函数改编自以下代码赫尔潘德尔的回答 https://stackoverflow.com/a/53592809/1840471提供每个结果的概率：

from sklearn.tree import DecisionTreeRegressor
import pandas as pd

def decision_tree_regressor_predict_proba(X_train, y_train, X_test, **kwargs):
    """Trains DecisionTreeRegressor model and predicts probabilities of each y.

    Args:
        X_train: Training features.
        y_train: Training labels.
        X_test: New data to predict on.
        **kwargs: Other arguments passed to DecisionTreeRegressor.

    Returns:
        DataFrame with columns for record_id (row of X_test), y 
        (predicted value), and prob (of that y value).
        The sum of prob equals 1 for each record_id.
    """
    # Train model.
    m = DecisionTreeRegressor(**kwargs).fit(X_train, y_train)
    # Get y values corresponding to each node.
    node_ys = pd.DataFrame({'node_id': m.apply(X_train), 'y': y_train})
    # Calculate probability as 1 / number of y values per node.
    node_ys['prob'] = 1 / node_ys.groupby(node_ys.node_id).transform('count')
    # Aggregate per node-y, in case of multiple training records with the same y.
    node_ys_dedup = node_ys.groupby(['node_id', 'y']).prob.sum().to_frame()\
        .reset_index()
    # Extract predicted leaf node for each new observation.
    leaf = pd.DataFrame(m.decision_path(X_test).toarray()).apply(
        lambda x:x.to_numpy().nonzero()[0].max(), axis=1).to_frame(
            name='node_id')
    leaf['record_id'] = leaf.index
    # Merge with y values and drop node_id.
    return leaf.merge(node_ys_dedup, on='node_id').drop(
        'node_id', axis=1).sort_values(['record_id', 'y'])

示例（参见这个笔记本 https://colab.research.google.com/drive/1O475-dUdJNtwg8osS8FfpVH_QeMRwf9g?usp=sharing):

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
X, y = load_boston(True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
# Works better with min_samples_leaf > 1.
res = decision_tree_regressor_predict_proba(X_train, y_train, X_test,
                                            random_state=0, min_samples_leaf=5)
res[res.record_id == 2]
#      record_id       y        prob
#   25         2    20.6    0.166667
#   26         2    22.3    0.166667
#   27         2    22.7    0.166667
#   28         2    23.8    0.333333
#   29         2    25.0    0.166667

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DecisionTreeRegressor 的 Predict_proba 的等效项的相关文章

如何查找分布式dask中任务失败的原因？

我正在开发一个分布式计算系统dask distributed 我通过以下方式提交给它的任务Executor map功能有时会失败而其他看起来相同的功能却可以成功运行该框架是否提供了诊断问题的方法 update我所说的失败是指增加 Bok
Python3+Kivy+Plyer 推送通知图标问题

我在使用 Android 的简单通知测试应用程序时遇到了一个奇怪的错误错误 python AttributeError type object notification org notificator R drawable has no
在 python 2 和 3 的spyder之间切换

根据我在文档中了解到的内容它指出您只需使用命令提示符创建一个新变量即可轻松在 2 个 python 环境之间切换如果我已经安装了 python 2 7 则 conda create n python34 python 3 4 anaco
OpenCV 错误：使用 COLOR_BGR2GRAY 函数时断言失败

我在使用 opencv 时遇到了一个奇怪的问题我在 jupyter 笔记本中工作时没有任何问题但在尝试运行此 Sublime 时却出现问题错误是 OpenCV错误 cvtColor中断言失败深度 CV 8U 深度 CV 16U 深度
无法将 datetime.datetime 与 datetime.date 进行比较

我有以下代码并收到上述错误由于我是 python 新手我无法理解这里的语法以及如何修复错误 if not start or date lt start start date 有一个datetime date 从日期时间转换为日期的方法
DataFrame 中的字符串，但 dtype 是对象

为什么 Pandas 告诉我我有对象尽管所选列中的每个项目都是一个字符串即使在显式转换之后也是如此这是我的数据框
Pytest：如何使用从夹具返回的列表来参数化测试？

我想使用由固定装置动态创建的列表来参数化测试如下所示 pytest fixture def my list returning fixture depends on other fixtures return a dynamically
如何在“python setup.py test”中运行 py.test 和 linter

我有一个项目setup py文件我用pytest作为测试框架我还在我的代码上运行各种 linter pep8 pylint pydocstyle pyflakes ETC 我用tox在多个 Python 版本中运行它们并使用以下命令构
multiprocessing.freeze_support()

为什么多处理模块需要调用特定的function http docs python org dev library multiprocessing html multiprocessing freeze support在被冻结以生成 Wi
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
使用Python重命名目录中的多个文件

我正在尝试使用以下 Python 脚本重命名目录中的多个文件 import os path Users myName Desktop directory files os listdir path i 1 for file in files
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm
如何抑制 Pandas Future 警告？

当我运行该程序时 Pandas 每次都会给出如下所示的未来警告 D Python lib site packages pandas core frame py 3581 FutureWarning rename with inplace
从 Flask 中的 S3 返回 PDF

我正在尝试在 Flask 应用程序的浏览器中返回 PDF 我使用 AWS S3 来存储文件并使用 boto3 作为与 S3 交互的 SDK 到目前为止我的代码是 s3 boto3 resource s3 aws access key id

随机推荐

如何在拖动 UICollectionViewCell 时实现透明背景或圆角

我确定有must这是一种简单的方法但我已经花了很长时间在各种兔子洞里到目前为止还没有成功我有一个支持拖放的集合视图被拖动的单元格有一个UIImageView in the contentView 并且图像视图的背衬层应用了角半径单
如果其中一个进程意外终止，进程间内存会发生什么情况？

如果您对动机感兴趣我将在接下来的几句话中详细说明如果不是请跳至问题我正在考虑制作快速记录器但当程序崩溃时不受影响又名最后一些日志消息不会丢失所以我的想法是写入共享内存 ringbuffer 并让另一个低优先级进程从中读取并进行
如何在jsf中启用浏览器缓存

我使用 JSF 2 0 创建了一个 Web 应用程序我收到朋友的反馈说我应该执行浏览器缓存因为我有很多图像但是我不知道如何在 JSF 中做同样的事情任何想法提示将不胜感激关于要做什么的概念也会起作用只需使用
继承和多态性的低级细节

这个问题是我心中的一大疑惑也很难用语言来形容有时它看起来很明显有时却很难破解所以问题是这样的 class Base public int a number Base virtual void function1 virtual vo
如何通过 Java High Level Rest Client 实现安全弹性搜索

我是弹性搜索新手通过将我的 Spring boot 应用程序与 Elastic 搜索集成Java High Level Rest Client 我已经配置了 JHLRC bean 如下所示它工作正常 Bean destroyMethod
调试时如何直接在IDE中查看其他对象的私有字段？

C 是我最熟悉的语言但工作时使用 Java 我想你可以说我对使用 Visual Studio IDE 非常满意我喜欢它的调试器的一件事是我可以将监视变量 Eclipse 中的表达式 any表达因此我可以在调试时毫无问题地查看特定字
如何在Python中将集合转换为列表？

我正在尝试将 Python 2 6 中的集合转换为列表我正在使用这个语法 first list 1 2 3 4 my set set first list my list list my set 但是我得到以下堆栈跟踪 Tracebac
cmake：将 FetchContent 与 find_package() 集成

我试图理解以下文档 https cmake org cmake help latest module FetchContent html integrating with find package https cmake org cmake
ANTLR4 不报告歧义

给出以下语法 grammar ReportAmbiguity unit statements statements callStatement lt uncomment this line callStatement CALL ID arg
线程安全内存池

我的应用程序目前对性能非常关键每帧请求 3 5 百万个对象最初为了让事情顺利进行我new d一切让应用程序运行并测试我的算法该应用程序是多线程的一旦我对性能感到满意我就开始为我的对象创建一个内存管理器明显的原因是内存碎片和
Compass 和 sass：可以自动导入所有部分吗？ [复制]

这个问题在这里已经有答案了在 compass sass 设置中理想情况下我想将每个 scss 文件编译成一个大文件style css 寻找例如here https stackoverflow com questions 5688291
根据另一个 List 对 List 进行排序

我有两个列表 student new list
为什么 Android 通知需要 Firebase 以及 OneSignal、Pubnub 和 Pusher 等第三方通知提供商？

我正在研究反应本机推送通知在向任何第三方通知提供商购买产品之前我正在寻找一些答案为什么 OneSignal Pusher 和 PubNub 等第三方通知提供商基于 Firebase Cloud Messaging 他们不能在不依赖 F
列表推导式是 Python 3 中“列表（生成器表达式）”的语法糖吗？

在 Python 3 中列表理解是一个简单的语法糖用于输入到生成器表达式中list功能例如是下面的代码 squares x 2 for x in range 1000 实际上在后台转换成以下内容 squares list x 2 fo
是否对组对象使用应用与变换，以减去两列并获取平均值

考虑以下数据框 columns A B C D records foo one 0 162003 0 087469 bar one 1 156319 1 5262719999999999 foo two 0 833892 1 666304
使用 Fiddler 限制网络速度不起作用

我面临的问题几乎类似于以下线程尽管有自定义规则仍无法使用 fiddler 控制网络带宽 https stackoverflow com questions 20513610 unable to control the network b
使用 C++11，我还需要用于 Unicode 文本的非标准字符串操作库吗？

我注意到 std string 的 length 方法返回以字节为单位的长度而 std u16string 中的相同方法返回 2 字节序列的数量我还注意到当字符或代码点位于 BMP 之外时长度返回 4 而不是 2 此外 Unicod
Angular 2：模板上未定义 OnInit 期间设置的属性

我有这个组件 export class CategoryDetailComponent implements OnInit category Category categoryProducts Product errorMessage st
在现有表 Oracle 上创建索引

在oracle中的现有表上创建索引安全吗像这样 CREATE INDEX table sample ix03 ON table sample col4 col22 TABLESPACE data STORAGE INITIAL 10M N
DecisionTreeRegressor 的 Predict_proba 的等效项

scikit learn 的DecisionTreeClassifier支持通过以下方式预测每个类别的概率predict proba 功能这不存在于DecisionTreeRegressor AttributeError Decision

DecisionTreeRegressor 的 Predict_proba 的等效项

DecisionTreeRegressor 的 Predict_proba 的等效项 的相关文章

随机推荐

热门标签

DecisionTreeRegressor 的 Predict_proba 的等效项的相关文章