通过在一个热编码数据上训练的模型来预测新值

2023-12-01

这可能看起来是一个微不足道的问题。但我陷入了预测模型结果的困境。我的问题是这样的:

我有一个形状为 1000 x 19 的数据集(目标特征除外),但经过一次热编码后,它变成了 1000 x 141。 由于我在形状为 1000 x 141 的数据上训练模型,因此我需要(至少)形状为 1 x 141 的数据进行预测。 我也知道在 python 中,我可以使用

model.predict(data)

但是,由于我是通过形状为 1 x 19 的门户网站从最终用户那里获取数据。现在我很困惑应该如何进一步根据用户数据进行预测。

如何将形状 1 x 19 的数据转换为 1 x 141,因为我必须保持与训练/测试数据相同的顺序,这意味着列的顺序不应不同? 对此方向的任何帮助将不胜感激。


我假设要创建一个热编码,您正在使用 sklearn onehotencoder。如果你使用它,那么问题应该很容易解决。由于您正在将一个热编码器安装到您的训练数据上

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(categories = "auto", handle_unknown = "ignore")
X_train_encoded = encoder.fit_transform(X_train)

因此,现在在上面的代码中,您的编码器已安装在训练数据上,因此当您获得测试数据时,您可以使用此安装的编码器将其转换为相同的编码数据。

test_data = encoder.transform(test_data)

现在您的测试数据也将是 1x141 形状。您可以使用检查形状

(pd.DataFrame(test_data.toarray())).shape
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

通过在一个热编码数据上训练的模型来预测新值 的相关文章

  • 函数名称未定义

    我有一段代码 看起来像这样 if name main main def main print hello 但是 当我尝试运行此代码时 出现错误 NameError 名称 main 未定义 我是否没有在函数 def main 的第一行定义名称
  • 使用ideone时如何传入命令行参数?

    我正在使用 ideone 在线解释器 http ideone com http ideone com 来测试一些 C 和 Python 程序 如何指定命令行参数而不是使用 STDIN 输入 看起来你不能 但是快速破解应该做的伎俩 stati
  • 是否可以在 IPython 控制台中显示 pandas 样式?

    是否可以显示熊猫风格 https pandas pydata org pandas docs stable user guide style html在 iPython 控制台中 Jupyter 笔记本中的以下代码 import panda
  • pandas read_csv 之前预处理数据文件

    我使用 SAP 的数据输出 但它既不是 CSV 因为它不引用包含其分隔符的字符串 也不是固定宽度 因为它具有多字节字符 它是一种 固定宽度 字符 为了将其放入 pandas 我当前读取文件 获取分隔符位置 对分隔符周围的每一行进行切片 然后
  • 在 Python 中延迟转置列表

    所以 我有一个延迟生成的可迭代的三元组 我试图弄清楚如何将其转换为 3 个可迭代对象 分别由元组的第一个 第二个和第三个元素组成 然而 我希望这件事能懒惰地完成 所以 举例来说 我希望 1 2 3 4 5 6 7 8 9 将变成 1 4 7
  • 我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗?

    来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
  • NumPy 数组与 SQLite

    我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗 我的意思是 它可以识别数据类型 不需要逐行插入 并提取到 NumPy rec 数组中 有点
  • 获取字符串模板中所有标识符列表的函数(Python)

    对于标准库string template在Python中 有没有一个函数可以获取所有标识符的列表 例如 使用以下 xml 文件
  • 无法使用Python请求会话模块登录网站

    我刚刚开始进行网络抓取 对于我的第一个项目 我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户 这是我的代码 import requests LOGIN URL htt
  • 将列表值转换为 pandas 中的行

    我有数据帧 其中一列具有相同长度的 numpy ndarray 值 df list 0 Out 92 array 0 0 0 0 29273096 0 30691767 0 27531403 我想将这些列表值转换为数据框并从 df iloc
  • Asyncio:从未检索到任务异常的怪异

    假设我有一个简单的代码 import asyncio async def exc print 1 0 loop asyncio get event loop loop create task exc try loop run forever
  • 右键单击 QPushButton 上的 contextMenu

    对于我的应用程序 我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码 关于一些QPushButton 与设计器创建 我想添加右键单击上下文菜单 菜单选项取决于应用程序状态 如何实现这样的上下文菜单
  • 当元组列表中相同项目的值是字符串时,对它们的值求和

    如果我有这样的元组列表 my list books 5 books 10 ink 20 paper 15 paper 20 paper 15 我怎样才能把列表变成这样 books 15 ink 20 paper 50 即添加同一项目的费用
  • Pandas 中每列的曲线拟合 + 外推值

    我有一个包含大约 300 列的数据集 每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
  • 解析整数集的字符串并列出间隔

    I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想 直接的答案是No 不管怎样 谢谢你的 片段 使用一个 建议者斯文 马尔纳克 s 2
  • 在 4K 屏幕上使用 Matplotlib 和 TKAgg 或 Qt5Agg 后端

    我在 Ubuntu 16 04 上使用 Matplotlib 2 0 和 Python 3 6 来创建数据图 电脑显示器的分辨率为 4k 分辨率为 3840x2160 绘图数字看起来非常小 字体也很小 我已经尝试过TKAgg and Qt5
  • 将二进制数据视为文件对象?

    在此代码片段 由另一个人编写 中 self archive是一个大文件的路径并且raw file是以二进制数据形式读取的文件内容 with open self archive rb as f f seek offset raw file s
  • 为数据集生成随机 JSON 结构排列

    我想生成 JSON 结构的许多不同排列作为同一数据集的表示 最好不需要对实现进行硬编码 例如 给定以下 JSON name smith occupation agent enemy humanity nemesis neo 应该产生许多不同
  • 关闭正在运行代码的 IPython Notebook

    怎么运行的 我在 IPython Notebook 中运行了一些代码 一些迭代工作 我不小心关闭了正在运行的笔记本的浏览器 但回到 IPython 仪表板 我发现这个特定的笔记本尚未关闭 所以如果我再次打开笔记本 我会在它正在执行的代码前面
  • 如何使用 keras.backend.gradients() 获取梯度值

    我试图获得 Keras 模型的输出相对于模型输入 x 而不是权重 的导数 似乎最简单的方法是使用 keras backend 中的 梯度 它返回梯度张量 https keras io backend https keras io backe

随机推荐

  • jquery keyup 适用于除 Firefox 之外的所有浏览器

    我有这个代码来防止人们在文本框中输入 jQuery document ready function jQuery cp price keypress function e if e keyCode 163 alert Exclude the
  • 如何使 gmpy 数组操作更快?

    我在尝试使用 gmpy 模块时一直遇到速度问题 import numpy as np import gmpy2 as gm N 1000 a range N timeit gm sin x for x in a 100 loops best
  • 一行 if 条件赋值

    我有以下代码 num1 10 someBoolValue True 我需要设置的值num1 to 20 if someBoolValue is True 除此之外什么也不做 所以 这是我的代码 num1 20 if someBoolValu
  • 如何在WPF中调用Windows主题?

    大家好 我正在尝试为 WPF 3 5 中的元素调用当前的窗口主题 当用户更改窗口主题时 我的应用程序也应该根据主题进行更改 我正在使用样式 请帮我 您可以通过将资源字典添加到主题文件夹来根据桌面主题定义不同的外观和感觉 桌面主题决定使用哪个
  • Java ssl 握手失败 (SSLPoke)

    我已将证书导入信任库 但仍然无法 成功连接到此网址 所有的方法我都试过了 可以 有人看到输出并帮忙看看发生了什么吗 java Djavax net debug all SSLPoke services americanexpress com
  • Matlab-如何根据其他变量的值命名新变量? [复制]

    这个问题在这里已经有答案了 可能的重复 如何在 MATLAB 中将数字连接到变量名 MATLAB 如何在另一个变量名称中使用变量值 我想使用函数中给出的其他变量的值来命名变量 因此 如果我有 x1 x2 的值 我可以将新变量的名称设置为 x
  • 我无法让 JScrollPanes 实际显示滚动条

    我在互联网上发现了一些例子 涉及获取图像或文本框来显示滚动条 但它们都涉及一个基本上在滚动窗格中显示其全部内容的程序 我需要让它做的就是在某处粘贴一个 JPanel 在该面板中堆放一堆文本 图标等 直到它对于我所拥有的空间来说太大 然后滚动
  • PyQt4 使用 setRowHidden 在 QListView 上按文本进行过滤

    我有一个如下所示的对话框 该对话框具有连接到过滤器按钮的以下代码 class Dialog QtGui QDialog addWin Ui Dialog self list QListView self filter clicked con
  • 是否可以通过 Eclipse 使用适用于 Android 的 Gradle 构建系统?

    我有一个应用程序需要使用不同的资源为不同的客户多次构建 品牌 配置和客户之间的预加载数据更改 在今年的 Google I O 大会之后 我听说了基于 Gradle 的新 Android 构建系统 所以我想 使用 Gradle 构建脚本来实现
  • 为什么我的自定义异常 unpickle 失败

    import pickle class ABError Exception def init self a b super ABError self init a self a a self b b class ABCDError ABEr
  • Android 弹出窗口与 Android 对话框

    我试图在我的应用程序中实现一个简单的逻辑 其中向用户显示一个弹出窗口 在应用程序启动一段时间后 弹出窗口仅显示一个TextView带有一些信息消息 每次启动应用程序时都会刷新此消息并显示新消息 弹出窗口的 UI 与我的应用程序 UI 相匹配
  • gcc 如何计算结构体所需的空间?

    struct integer a struct c b 一般来说 gcc 是如何计算所需空间的 这里有人曾经窥探过内部情况吗 我没有 偷看内部结构 但它非常清楚 任何理智的编译器都会以完全相同的方式来做 过程如下 从尺寸 0 开始 对于每个
  • Python 使用 JOSE 模块解码 jwt 令牌

    请帮我解码这个 jwt使用 python jose 模块 我不知道什么key我应该用 因为任何在线 jwt 解码器都可以在没有任何密钥的情况下解码它 token eyJhbGciOiJSUzI1NiIsImtpZCI6ImVlYTFiMWY
  • Javascript 检查数组是否存在特定数字

    我在这里搜索了很多问题 但还没有找到一个我认为适合我的问题 所以如果您知道一个问题 请链接到它 我有一个数组 我想在其中搜索特定的数字 如果该数字在数组中 那么我想采取一个操作 如果没有 则采取另一个操作 我有这样的东西 var Array
  • ng-content 中带有选择器的条件重复 templateref

    我有一个根据客户端设备大小切换组件模板的组件 组件代码为 import Component from angular core import BreakpointObserver Breakpoints from angular cdk l
  • SparkJava 变量范围

    我正在开发一个 SparkJava 不是 Apache Spark 应用程序 我想在前置过滤器和后置路由之间共享一个对象 过滤器和路由在不同的类中定义 我不愿意继续使用会话 因为它是一个移动应用程序 json api 从理论上讲 它应该是无
  • 如何使用单个命令删除clearcase分支?

    我不小心创建了一个配置规范错误的分支 并且在其中进行了本不该完成的合并 有没有一种方法可以用一个且唯一的命令来删除这个分支 就像它从未存在过一样 分支中没有检出文件 我可以检查所有文件并手动执行 因为只有 3 个文件被合并 但如果有 300
  • 在 Win32 发布模式下查看 VC++ 2010 中准确反汇编的最佳方法是什么?

    我正在编写汇编级优化代码 我需要确保 C 编译器在发布模式下正确使用它 我曾经能够让发布模式程序在 VS 2002 中的断点上中断 并在我逐步执行它时显示原始反汇编 但我不记得如何让它工作 VS 2010 是否有任何选项可能允许这种情况发生
  • 在php中打开com端口

    我有一个 USB 3G 调制解调器华为 E1550 和 Windows XP 我想用这个调制解调器 trhow php 发送短信 我使用此函数打开调制解调器 com 端口 fp fopen COM3 wb if fp echo Not op
  • 通过在一个热编码数据上训练的模型来预测新值

    这可能看起来是一个微不足道的问题 但我陷入了预测模型结果的困境 我的问题是这样的 我有一个形状为 1000 x 19 的数据集 目标特征除外 但经过一次热编码后 它变成了 1000 x 141 由于我在形状为 1000 x 141 的数据上