将预测映射回 ID - Python Scikit Learn DecisionTreeClassifier

2023-12-31

我有一个具有唯一标识符和其他功能的数据集。看起来像这样

ID      LenA TypeA LenB TypeB Diff Score Response
123-456  51   M     101  L     50   0.2   0
234-567  46   S     49   S     3    0.9   1
345-678  87   M     70   M     17   0.7   0

我将其分为训练数据和测试数据。我试图将测试数据从训练数据训练的分类器中分为两类。我想要训练和测试数据集中的标识符，这样我就可以将预测映射回 ID.
有没有一种方法可以将标识符列分配为 ID 或非预测变量，就像我们在 Azure ML Studio 或 SAS 中所做的那样？

我正在使用DecisionTreeClassifier来自 Scikit-Learn。这是我的分类器代码。

from sklearn import tree

clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)

如果我只是将 ID 添加到traindata，代码抛出错误：

ValueError: invalid literal for float(): 123-456

不知道你是如何分开的，我建议你确保ID列不包含在您的训练数据中。也许是这样的：

X_train, X_test, y_train, y_test = test_train_split(df.ix[:, ~df.columns.isin(['ID', 'Response'])].values, df.Response)

这将仅拆分 DataFrame 中的值，而不是ID or Response为了X值，并拆分Response为了y values.

但您仍然无法使用DecisionTreeClassifier使用此数据，因为它包含字符串。您将需要转换任何具有分类数据的列，即TypeA and TypeB到数字表示。我认为对于 sklearn 来说最好的方法是使用LabelEncoder http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html。使用它将转换分类字符串标签['M', 'S'] into [1, 2]可以通过以下方式实现DecisionTreeClassifier。如果您需要一个示例，请查看将分类数据传递给 sklearn 决策树 https://stackoverflow.com/questions/38108832/passing-categorical-data-to-sklearn-decision-tree.

Update

根据您的评论，我现在明白您需要映射回ID。在这种情况下，你可以利用 pandas 来发挥你的优势。放ID作为数据的索引，然后进行拆分，这样您将保留ID所有训练和测试数据的价值。假设您的数据已经在 pandas 数据框中。

df = df.set_index('ID')
X_train, X_test, y_train, y_test = test_train_split(df.ix[:, ~df.columns.isin(['Response'])], df.Response)
print(X_train)
         LenA TypeA  LenB TypeB  Diff  Score
ID
345-678    87     M    70     M    17    0.7
234-567    46     S    49     S     3    0.9

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将预测映射回 ID - Python Scikit Learn DecisionTreeClassifier 的相关文章

sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

ASP.NET MVC 区域内样式表中的相对路径

我有一个当前结构的项目 My Project Content Controller View Model Areas Area1 View Controller Model Area2 View Controller Model 所有区域视
了解 Prolog 列表

我试图理解 Prolog 列表以及如何在递归函数末尾返回实例化值我正在看这个简单的例子 val and remainder X X Xs Xs val and remainder X Y Ys Y R val and remaind
如何仅恢复 SVN 工作副本中的目录？

我想恢复一个目录及所有子目录在 SVN 工作副本中因此它们与存储库匹配但我不想碰任何文件在这些目录中我的一个 SVN 应用程序在工作副本中的每个目录上递归地设置 SVN 属性但我想恢复这些更改以阻止它突出显示它们并尝试将更改提交到
有没有办法获取装饰器包装的函数？

假设我有 someDecorator def func this function does something print 1 现在对象func是一个实例someDecorator 有什么方法可以访问它所拥有的功能即类似的东西func
如何将列表转换为JavaRDD

我们知道spark中有一个方法rdd collect 它可以将RDD转换为列表 List
Angular JS 中的条件 ng 模式

有没有办法在 AngularJS 中实现条件 ng pattern ng pattern myForm exipration dirty d 2 d 4 我像上面那样尝试过但没有帮助 Markup
如何在某个索引处用不同颜色标记水平进度条，就像Android中的Youtube视频黄色广告标记一样

在我当前的应用程序中需要创建自定义视频播放器特殊要求是在某个给定的时间索引显示或标记不同颜色的视频进度条就像 Youtube 用黄色标记其视频以指示其视频上的广告一样进度条为了更清楚请检查下面的屏幕截图此时我已经使用 Vide
R 中数据帧的条件和

我想组合数据帧并根据其中一个数据帧的值有条件地计算它们的总和对于下面的示例如果单元格位于df4不是 0 也不是 NA 总和应该是df3 df4否则总和应该是df1 df2 df3 gt df1 1 2 3 A 0 3 2 B 1 1 0
解析推送 - 如何在 Android 上接收推送时自动打开活动，无需用户操作

我有一个要求 android 当收到推送通知时我的应用程序应该自动运行其主要活动而无需用户单击系统托盘中的通知我有一张显示当前位置的地图但在推送中我将收到一个位置并且我需要在主要活动中使用我的地图在接收推送时将相机移动到当前接收
从 python 中的 stdin 读取时管道文件描述符错误

重复的this https stackoverflow com questions 466801 python piping on windows why does this not work问题投票结束在 Windows 命令行中考虑
Django Rest Framework - 未提供身份验证凭据

我正在使用 Django Rest Framework 开发一个 API 我正在尝试列出或创建一个订单对象但是当我尝试访问控制台时出现以下错误 detail Authentication credentials were not pr
获取最高分配的文件描述符

是否有一种可移植的方法 POSIX 来获取当前进程的最高分配文件描述符编号例如我知道有一种很好的方法可以获取 AIX 上的号码但我正在寻找一种可移植的方法我问的原因是我想关闭所有打开的文件描述符我的程序是一个以 root 身份运行
在 xib 的自定义单元上设置 IBAction？

我在 xib 中创建了一个自定义单元格在 iOS 6 中使用 Storyboard 但为单元格创建了单独的 xib 现在我尝试将扬声器按钮连接到 UITableViewController 子类中的 IBAction 我在 viewDid
.NET C#：如何在 AJAX 调用期间处理表单身份验证过期

对于上下文我在 web config 中设置了表单身份验证超时值并且正在使用 ASP NET MVC 1 我认为将我的问题表述为 2 个用例可能是最简单的第一个用例是在没有身份验证的情况下发生的情况超时第二个是身份验证超时会发生什么
如何在 JSF 中显示我的应用程序的错误？

在我的 JSF Facelets 应用程序中这是我的表单的一部分的简化版本
如何使用类似于beanstalkd的cli来监控Redis作为队列引擎？

背景 We used Laravel 队列 https laravel com docs 5 1 queues在之上豆茎 https github com kr beanstalkd在两个 ec2 实例上在负载均衡器后面随着系统的扩展
C# 超时后自动释放锁

有谁知道实现锁定的最佳方法是什么以便在X秒后它会自动释放假设您正在寻找在 X 秒内触发的事件那么我认为当前没有任何核心 Mutex 对象提供您正在寻找的功能类型您可以通过使用 System Timer 在 X 秒内触发并释放锁定的互
Flutter：将文件（图像）裁剪为圆形

我正在尝试在颤动中裁剪文件图像文件这就是我所拥有的这就是我想要在裁剪后得到的带有圆形裁剪的 png 重要的是该文件是 png 因此它没有白色边框有支持这个的包吗您可以使用盒子装饰 https api flutter dev fl
将非常大的数字从二进制转换为十进制并打印

我知道如何将二进制转换为十进制我至少知道两种方法表和幂我想将二进制转换为十进制并打印该十进制而且我对这个小数不感兴趣我只想打印它但是正如我上面所写我只知道两种将二进制转换为十进制的方法并且它们都需要加法因此我正在
将预测映射回 ID - Python Scikit Learn DecisionTreeClassifier

我有一个具有唯一标识符和其他功能的数据集看起来像这样 ID LenA TypeA LenB TypeB Diff Score Response 123 456 51 M 101 L 50 0 2 0 234 567 46 S 49 S 3

将预测映射回 ID - Python Scikit Learn DecisionTreeClassifier

将预测映射回 ID - Python Scikit Learn DecisionTreeClassifier 的相关文章

随机推荐

热门标签