Python中使用factorize()后如何获取原始值?

2023-12-26

我是一个初学者,尝试使用 Python 中的随机森林、训练和测试数据集创建预测模型。 train["ALLOW/BLOCK"] 可以取 4 个期望值(所有字符串)中的 1 个。 test["ALLOW/BLOCK"] 是需要预测的。

y,_ = pd.factorize(train["ALLOW/BLOCK"])

y
Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64)

I used predict为了预测。

clf.predict(test[features])

clf.predict(test[features])[0:10]
Out[294]: array([0, 0, 0, 0, 0, 2, 2, 0, 0, 0], dtype=int64)

如何获取原始值而不是数字值?下面的代码实际上是在比较实际值和预测值吗?

z,_= pd.factorize(test["AUDIT/BLOCK"])

z==clf.predict(test[features])
Out[296]: array([ True, False, False, ..., False, False, False], dtype=bool) 

首先,您需要保存label由返回pd.factorize如下:

y, label = pd.factorize(train["ALLOW/BLOCK"])

然后在获得数字预测后,您可以通过以下方式提取相应的标签label[pred]:

pred = clf.predict(test[features])
pred_label = label[pred]

pred_label包含对原始值的预测。


不,您不应该重新分解测试预测,因为标签很可能会有所不同。考虑以下示例:

pd.factorize(['a', 'b', 'c'])
# (array([0, 1, 2]), array(['a', 'b', 'c'], dtype=object))

pd.factorize(['c', 'a', 'b'])
# (array([0, 1, 2]), array(['c', 'a', 'b'], dtype=object))

所以标签取决于元素的顺序。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python中使用factorize()后如何获取原始值? 的相关文章

  • 按每个元素中出现的数字对字符串列表进行排序[重复]

    这个问题在这里已经有答案了 我有一个脚本 其目的是对不断下载到服务器上的空间数据集文件进行排序和处理 我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
  • virtualenvwrapper 函数在 shell 脚本中不可用

    所以 我再一次制作了一个很棒的 python 程序 它让我的生活变得更加轻松 并节省了大量时间 当然 这涉及到一个 virtualenv 用mkvirtualenvvirtualenvwrapper 的功能 该项目有一个requiremen
  • 创建 xyz 海拔数据的曲面图

    我正在尝试用 python 创建一座山的表面图 其中我有一些 xyz 数据 最终结果应该类似于that https i stack imgur com rKQV0 png 该文件的格式如下 616000 0 90500 0 3096 712
  • 如何在Python + Selenium中获取元素的值

    我在我的 Python 3 6 3 代码中得到了这个 HTML 元素 作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
  • DataFrame.loc 的“索引器太多”

    我读了关于切片器的文档 http pandas pydata org pandas docs stable advanced html using slicers一百万次 但我从来没有理解过它 所以我仍在试图弄清楚如何使用loc切片Data
  • 获取字符串模板中所有标识符列表的函数(Python)

    对于标准库string template在Python中 有没有一个函数可以获取所有标识符的列表 例如 使用以下 xml 文件
  • pandas 数据框的最大大小

    我正在尝试使用读取一个有点大的数据集pandas read csv or read stata功能 但我不断遇到Memory Errors 数据帧的最大大小是多少 我的理解是 只要数据适合内存 数据帧就应该没问题 这对我来说不应该是问题 还
  • Python Apache Beam 端输入断言错误

    我对 Apache Beam Cloud Dataflow 还很陌生 所以如果我的理解不正确 我深表歉意 我正在尝试通过管道读取大约 30 000 行长的数据文件 我的简单管道首先从 GCS 打开 csv 从数据中提取标题 通过 ParDo
  • Python 中“is”运算符的语义是什么?

    如何is运算符确定两个对象是否相同 它是如何工作的 我找不到它的记录 来自文档 http docs python org reference datamodel html 每个对象都有一个身份 一个类型 和一个值 对象的身份 一旦发生就永远
  • 如何在Python中手动对数字列表进行排序?

    规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者 遇到了这个 手动排序 问题 我被要求做的事情 让用户输入 3 个数值并将它们存储在 3 个不同的变量中 不使用列表或排序算法 手动将这 3 个数字从小到大
  • Pandas 中每列的曲线拟合 + 外推值

    我有一个包含大约 300 列的数据集 每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
  • 使用具有可变数量索引的 numpy mggrid

    如何将 numpy mgrid 与可变数量的索引一起使用 我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
  • “KMeans”对象没有属性“k”

    我使用 Yellowbrick 包绘制数据集的肘部曲线 以使用 KMeans 作为模型找到数据集的最佳簇数 我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数 生成了肘部曲
  • Python GTK3 Treeview 向上或向下移动选择

    如何在树视图中向上或向下移动所选内容 我的想法是 我可以使用向上和向下按钮将选择向上移动一行或向下移动一行 我的 Treeview 使用 ListStore 不确定这是否重要 首先 我将使用我熟悉的 C 代码 如果您在将其翻译为 Pytho
  • 为什么我无法杀死 k8s pod 中的 python 进程?

    我试图杀死一个 python 进程 ps aux grep python root 1 12 6 2 1 2234740 1332316 Ssl 20 04 19 36 usr bin python3 batch run py root 4
  • 列表中的特定范围(python)

    我有一个从文本字符串中提取的整数列表 因此当我打印该列表 我称之为test I get 135 2256 1984 3985 1991 1023 1999 我想打印或制作一个仅包含特定范围内的数字的新列表 例如1000 2000之间 我尝试
  • 如何在类型提示中定义元组或列表的大小

    有没有办法在参数的类型提示中定义元组或列表的大小 目前我正在使用这样的东西 from typing import List Optional Tuple def function name self list1 List Class1 if
  • 将二进制数据视为文件对象?

    在此代码片段 由另一个人编写 中 self archive是一个大文件的路径并且raw file是以二进制数据形式读取的文件内容 with open self archive rb as f f seek offset raw file s
  • Django 中使用外键的抽象基类继承

    我正在尝试在 Django 支持的网站上进行模型继承 以遵守 DRY 我的目标是使用一个名为 BasicCompany 的抽象基类来为三个子类提供通用信息 Butcher Baker CandlestickMaker 它们位于各自的应用程序
  • 如何在不同的目录中执行python脚本?

    Solved对于可能觉得这有帮助的人 请参阅下面我的答案 我有两个脚本 a py 和 b py 在我当前的目录 C Users MyName Desktop MAIN 中 我运行 gt python a py 第一个脚本 a py 在我当前

随机推荐

  • Gmail API OAuth2 错误:redirect_uri_mismatch

    我遵循了 Gmail API Python 快速入门教程 https developers google com gmail api quickstart python https developers google com gmail a
  • 在 Swift 3 中使用音频队列获取麦克风输入

    我正在开发一个应用程序 通过内置麦克风录制语音并将其实时发送到服务器 所以我需要在录音时从麦克风获取字节流 经过谷歌搜索和堆栈溢出相当长一段时间后 我想我弄清楚了它应该如何工作 但事实并非如此 我认为使用音频队列可能是可行的方法 这是我到目
  • 获取int的长度

    我正在尝试获取一个的长度 以十进制解释时的位数 int生锈了 我找到了一种方法来做到这一点 但是我正在寻找来自原语本身的方法 这就是我所拥有的 let num 90 to string println num num chars count
  • 获取选择 jquery ui 选项卡上的选项卡文本

    我正在使用 jquery ui 选项卡 我可以在 load ajax 事件中获取所选选项卡的索引 tabs tabs load function e ui if tabs tabs option selected 0 现在我想获取选项卡名称
  • JPA 坚持多对多

    我有一个非常标准的场景 其中我有一个以 user id 作为 PK 的用户表和一个以 role id 作为 PK 的角色表 这两个表通过多对多关系相关 即用户可以拥有多个角色 一个角色可以应用于多个用户 随后我有一个名为 users has
  • 如何将 grails 3 插件发布到我的本地 Nexus 存储库?

    Running grails publish plugin似乎没有做任何事情 我能找到的唯一文档是关于发布到 bintray 的 edit 我可以通过发布插件gradle publish 但想知道是否有一种 gr ails y 的方法可以做
  • (StaleElementException:Selenium) 我该如何处理这个问题?

    这是我第一次第一天研究 Selenium 而且我也没有深入的 Web 技术实践经验 解决办法是 当我尝试访问 DOM 上的特定对象时 我一直面临 StaleElementException 以下方法处理所有任务 private void e
  • 为什么我们为每个变量分配 12 个字节?

    在 Visual Studio 2010 Professional x86 Windows 7 中 more 00DC1362 B9 39 00 00 00 mov ecx 39h 00DC1367 B8 CC CC CC CC mov e
  • 是否可以在 Jupyter Notebook 中使用 SCOOP?

    有没有一种方法可以从 Jupyter 笔记本中运行 SCOOP 模块 我需要使用 SCOOP 构建数据集 然后使用 matplotlib seaborn 构建绘图 None
  • 如何根据缩放级别获取等于 Geozone 圆半径的像素数?或者区域圆到屏幕像素的半径?

    我正在谷歌地图上创建地理区域 默认Circle https developers google com android reference com google android gms maps model Circle滚动地图时地图 AP
  • 将 WinForm 保存为 PDF 并打印多页 WinForm [关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 如何将多页 WinForm 保存为 PDF 以及如何打印 谢谢 奥菲尔 一个好的框架是pdfSharp http www pdfsharp
  • Angular 2 教程,路由部分未处理的承诺拒绝

    我正在尝试遵循官方教程 一切都很顺利 直到路由部分here https angular io docs ts latest tutorial toh pt5 html 当我到达重新制作 app component ts 并更改 app mo
  • TFS Rest API 不适用于日志

    知道为什么这个方法不起作用 GET https instance DefaultCollection project apis build builds buildId logs api version 2 0 我能够获取构建定义等 但是当
  • 如何在 Visual Studio 中仅调试一个线程[重复]

    这个问题在这里已经有答案了 我希望在调试时能够仅跟踪一个线程的执行 我使用线程池 因此调试器不断在线程之间切换 这使得调试非常不舒服 Reading Visual Studio 调试多个线程之一 https stackoverflow co
  • 如何在 Coffeescript 中实现和谐?

    这是我运行 js 代码的方式 node harmony data app js 现在我想转向 CoffeeScript 所以我尝试这样运行它 coffee data app coffee 但它失败了 我怎样才能通过这个 harmony op
  • 小书签如何避免弹出窗口拦截器

    我编写了一个书签 用于在弹出窗口中使用谷歌翻译器快速翻译选定的文本 javascript function var text encodeURI document getSelection if text length text promp
  • MySQL 遗留数据库的终极噩梦

    表格1 一切包括厨房水槽 日期格式错误 去年 因此无法对该列进行排序 存储为 VARCHAR 的数字 街道 列中的完整地址 名字列中的名字和姓氏 姓氏列中的城市 不完整的地址 通过根据多年来更改的一组规则将数据从一个字段移动到另一个字段来更
  • 在 Nest.js 中访问 Stripe webhook 的原始主体

    我需要在 Nest js 应用程序中访问来自 Stripe 的 webhook 请求的原始正文 下列的this https github com stripe stripe node blob master examples webhook
  • 如何检查ACTION_SEND意图是否已启动?

    我的应用程序使用标准的简单文本共享 在我的测试中 我想检查我的活动是否启动了共享意图 是否可以 我在用ActivityInstrumentationTestCase2 test 活动 final Intent sendIntent new
  • Python中使用factorize()后如何获取原始值?

    我是一个初学者 尝试使用 Python 中的随机森林 训练和测试数据集创建预测模型 train ALLOW BLOCK 可以取 4 个期望值 所有字符串 中的 1 个 test ALLOW BLOCK 是需要预测的 y pd factori