如何将sklearn决策树规则提取为pandas布尔条件？

2024-03-29

有这么多帖子像这样 https://stackoverflow.com/questions/20224526/how-to-extract-the-decision-rules-from-scikit-learn-decision-tree关于如何提取 sklearn 决策树规则，但我找不到任何有关使用 pandas 的信息。

Take 这个数据和模型 https://www.datacamp.com/community/tutorials/decision-tree-classification-python例如，如下

# Create Decision Tree classifer object
clf = DecisionTreeClassifier(criterion="entropy", max_depth=3)

# Train Decision Tree Classifer
clf = clf.fit(X_train,y_train)

结果：

预期的：

这个例子有 8 条规则。

从左到右，请注意数据框是df

r1 = (df['glucose']<=127.5) & (df['bmi']<=26.45) & (df['bmi']<=9.1)
……
r8 =  (df['glucose']>127.5) & (df['bmi']>28.15) & (df['glucose']>158.5)

我不是提取 sklearn 决策树规则的高手。获取 pandas 布尔条件将帮助我计算每个规则的样本和其他指标。所以我想将每个规则提取为 pandas 布尔条件。

首先我们使用 scikit文档 https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html在决策树结构上获取有关所构建的树的信息：

n_nodes = clf.tree_.node_count
children_left = clf.tree_.children_left
children_right = clf.tree_.children_right
feature = clf.tree_.feature
threshold = clf.tree_.threshold

然后我们定义两个递归函数。第一个将找到从树根开始的路径来创建特定节点（在我们的例子中是所有叶子）。第二个将编写用于使用其创建路径创建节点的具体规则：

def find_path(node_numb, path, x):
        path.append(node_numb)
        if node_numb == x:
            return True
        left = False
        right = False
        if (children_left[node_numb] !=-1):
            left = find_path(children_left[node_numb], path, x)
        if (children_right[node_numb] !=-1):
            right = find_path(children_right[node_numb], path, x)
        if left or right :
            return True
        path.remove(node_numb)
        return False


def get_rule(path, column_names):
    mask = ''
    for index, node in enumerate(path):
        #We check if we are not in the leaf
        if index!=len(path)-1:
            # Do we go under or over the threshold ?
            if (children_left[node] == path[index+1]):
                mask += "(df['{}']<= {}) \t ".format(column_names[feature[node]], threshold[node])
            else:
                mask += "(df['{}']> {}) \t ".format(column_names[feature[node]], threshold[node])
    # We insert the & at the right places
    mask = mask.replace("\t", "&", mask.count("\t") - 1)
    mask = mask.replace("\t", "")
    return mask

最后，我们使用这两个函数首先存储每个叶子的创建路径。然后存储用于创建每个叶子的规则：

# Leaves
leave_id = clf.apply(X_test)

paths ={}
for leaf in np.unique(leave_id):
    path_leaf = []
    find_path(0, path_leaf, leaf)
    paths[leaf] = np.unique(np.sort(path_leaf))

rules = {}
for key in paths:
    rules[key] = get_rule(paths[key], pima.columns)

根据您提供的数据，输出为：

rules =
{3: "(df['insulin']<= 127.5) & (df['bp']<= 26.450000762939453) & (df['bp']<= 9.100000381469727)  ",
 4: "(df['insulin']<= 127.5) & (df['bp']<= 26.450000762939453) & (df['bp']> 9.100000381469727)  ",
 6: "(df['insulin']<= 127.5) & (df['bp']> 26.450000762939453) & (df['skin']<= 27.5)  ",
 7: "(df['insulin']<= 127.5) & (df['bp']> 26.450000762939453) & (df['skin']> 27.5)  ",
 10: "(df['insulin']> 127.5) & (df['bp']<= 28.149999618530273) & (df['insulin']<= 145.5)  ",
 11: "(df['insulin']> 127.5) & (df['bp']<= 28.149999618530273) & (df['insulin']> 145.5)  ",
 13: "(df['insulin']> 127.5) & (df['bp']> 28.149999618530273) & (df['insulin']<= 158.5)  ",
 14: "(df['insulin']> 127.5) & (df['bp']> 28.149999618530273) & (df['insulin']> 158.5)  "}

由于规则是字符串，因此您不能直接使用它们来调用它们df[rules[3]]，你必须像这样使用 eval 函数df[eval(rules[3])]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

machinelearning

scikitlearn

Decisiontree

如何将sklearn决策树规则提取为pandas布尔条件？的相关文章

Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
通过鼻子测试检查某个函数是否发出警告

我正在使用编写单元测试nose http somethingaboutorange com mrl projects nose 0 11 2 我想检查函数是否引发警告该函数使用warnings warn 这是很容易就能做到的事情吗 def
十六进制数的按位异或

我们如何在 Python 中对十六进制数进行异或例如我想要异或 ABCD and 12EF 答案应该是 B922 我使用了下面的代码但它给出了错误的结果 xor two strings of different lengths def
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
Selenium：等到 WebElement 中的文本发生变化

我在用着selenium使用Python 2 7 从网页上的搜索框检索内容搜索框动态检索结果并在框本身中显示结果 from selenium import webdriver from selenium webdriver common
当 DetailView 遇到时更新模型字段。 [姜戈]

我有一个类似的 DetailViewviews py views py class CustomView DetailView context object name content model models AppModel templa
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
如何从数据框的单元格中获取值？

我构建了一个条件从我的数据框中提取一行 d2 df df l ext l ext df item item df wn wn df wd 1 现在我想从特定列中获取一个值 val d2 col name 但结果我得到一个包含一行和一列
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
如何在 Python 中执行相当于预处理器指令的操作？

有没有办法在 Python 中执行以下预处理器指令 if DEBUG lt do some code gt else lt do some other code gt endif There s debug 这是编译器预处理的特殊值 if
Flask SQLAlchemy 与 MyPy - 模型类型错误

我遇到了以下组合问题flask sqlalchemy and mypy 当我定义一个新的 ORM 对象时例如 class Foo db Model pass where db是使用创建的数据库SQL炼金术应用于flask app mypy
使用 Flask-SQLAlchemy 进行多对多多数据库连接

我正在尝试使这个多对多联接与 Flask SQLAlchemy 和两个 MySQL 数据库一起工作并且它非常接近只是它为联接表使用了错误的数据库这是基础知识我有main db and vendor db 表格设置为main db u
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
Jupyter Notebook 中的多处理与线程

我试图测试这个例子here https ipywidgets readthedocs io en stable examples Widget 20Asynchronous html将其从线程更改为多处理在 jupyter Noteboo
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
如何动态创建 Luigi 任务

我正在为 Luigi Tasks 构建一个包装器但遇到了一个障碍Register http luigi readthedocs io en stable modules luigi task register html Register该
python中匹配3个或更多相同的字符

我正在尝试使用正则表达式在字符串中查找三个或更多相同的字符例如你好不匹配噢会的我尝试过做类似的事情 re compile 1 3 a zA Z re compile w 1 5 但似乎都不起作用 w 1 2 是您正在寻找的正则表

随机推荐

Kestrel 错误：地址已在使用中（dotnet 核心）

摘要它的工作原理是dotnet run 但它不起作用dotnet myappname dll 我的 Linux 技能有限但我正在尝试按照书本进行操作这样我就不会混淆事情以下本教程 http www hanselman com blo
在 iOS 14 中，Interface Builder 中设置的 UITextField backgroundColor 在运行时为零

我有一个应用程序可以在 iOS 11 13 上正常运行但是当我在 iOS 14 中运行它时有几个其中的文本字段用零渲染因此透明背景颜色即使背景颜色在 Interface Builder 中明确设置为白色我在代码中看不到任何使用可能
如何在 PySide2 应用程序中嵌入 matplotlib 画布

我正在尝试将 matplotlib 画布嵌入到 PySide2 应用程序中我尝试使用这个例子 https matplotlib org examples user interfaces embedding in qt5 html http
使用 bash 计算文件中每个单词的出现次数

我想计算文件中每个单词的出现次数但结果是错误的 bin bash usage count sh file declare a dict for word in cat 1 do if dict word then dict word 0
在 Google 表格中两个数字之间的列中填写数字

所以我试图填写 Google 表格中两个单元格之间的数字我从 270 开始在列中出现几个不确定且变化的空单元格后我需要达到 180 我需要均匀地填充它们之间的单元格但如何呢如果您想将这些值粘贴到同一列中您需要执行以下操作那么公
Prolog - 递归列表构建

对于我正在编写的程序我需要创建一个列表列表其中包含代表乘积的数字对和两个给定数字的总和现在我有一个函数我可以指定将列表添加到列表中的次数稍后将使用完整功能进行扩展这是我所拥有的 s1 0 X s1 Q X N is Q 1 mu
NFC 广播接收器问题

我希望我的应用程序仅在激活时侦听 nfc 标签为此我尝试如下注册一个 nfc 侦听器但没有成功 IntentFilter filter new IntentFilter android nfc action TECH DISCOVER
使用查询生成器或 Eloquent 进行带有附加条件的 JOIN

我正在尝试使用 Laravel 查询生成器的 JOIN 查询添加条件
Android 上的 Libgdx app.exit() 未关闭应用程序

在我用 libGDX 开发的 Android 应用程序中我使用Gdx app exit 当用户尝试退出游戏时这会关闭游戏但是当用户重新启动应用程序时所有Textures被扰乱超出了使用该应用程序的范围我注意到如果我从任务管理器
Haskell 中的垃圾 thunk 是否存在固有的“携带成本”？

在运行 GHC 编译的程序时我经常看到 GC 上花费了大量的周期这些数字往往比我的 JVM 经验所建议的要高出一个数量级特别是 GC 复制的字节数似乎比我正在计算的数据量大得多非语言和严格语言之间的这种差异是根本性的吗 tl dr
Cassandra 和 Tombstones：创建行、删除行、重新创建行 = 性能？

有人可以解释一下以下过程对墓碑有什么影响 1 使用键 1 创建行字段用户密码日期 2 删除键为 1 的行 3 使用键 1 创建行字段用户密码登录计数该序列在一个线程中按顺序执行因此这种情况以相对较高的速度发生
从 Ruby 类中调用方法？（或者这是 Rails 的魔法）

我是 Ruby 新手正在学习一些教程截屏视频我已经到达他们正在讨论的部分before filter回调它使用了一些对我来说有点奇怪的语法我不知道这是否是 ruby 的一个功能或者它是否是一些 Rails 的魔法希望这里有人可以
Google 电子表格脚本：调试图标已禁用

这是我第一次尝试创建谷歌电子表格脚本我正在关注这个教程 https developers google com apps script articles docslist tutorial section2 https developer
委托类型和事件处理程序类型有什么区别？

三个相关的惯用语事件委托事件处理程序我总是对谁添加到谁感到困惑 event handler event delegate handler delegate 据我所知 delegate 指向具有已知签名的函数的指针事件处理程序
System.ObjectModel 警告 Xamarin 无法在 Android 上运行

我们正在 Windows 8 1 环境中使用最新的 Xamarin 在 Visual Studio Enterprise 上运行欢迎使用 Xamarin 示例我们正在设法在 Windows 和 Apple 上构建和运行但我们在 And
无法编译 HTTP-Live-Video-Stream-Segmenter-and-Distributor

我正在 Ubuntu 11 10 上运行打算编译HTTP直播视频流段和分配器 https github com carsonmcdonald HTTP Live Video Stream Segmenter and Distributor
电子表格函数中返回数组

下面的代码返回一个数组我想在电子表格中使用它作为 Excel 公式来返回数组但是当我这样做时它只将第一个值返回到单元格无论如何是否可以返回与数组大小相同的范围内的数组 Function LoadNumbers Low As Lo
./node_modules/bootstrap-loader/no-op.js 中出现错误

我在我的应用程序中使用 Webpack 其中我将入口点创建为 index ts 并且我尝试使用 sass css bootstrap typescript 作为我的项目 webpack 中的资源来运行它但我遇到了这些错误 bootstra
如何从jetty-maven-plugin获取端口号？

jetty maven 插件 7 x http wiki eclipse org Jetty Feature Jetty Maven Plugin 当用于集成测试时在运行时动态查找可用端口如何保存找到的端口号并在 Java 集成测试中使
如何将sklearn决策树规则提取为pandas布尔条件？

有这么多帖子像这样 https stackoverflow com questions 20224526 how to extract the decision rules from scikit learn decision tree关于

如何将sklearn决策树规则提取为pandas布尔条件？

如何将sklearn决策树规则提取为pandas布尔条件？ 的相关文章

随机推荐

热门标签

如何将sklearn决策树规则提取为pandas布尔条件？的相关文章