回归分析中的分类特征数据和序数特征数据差异?

2024-02-06

在进行回归分析时,我试图完全理解分类数据和序数数据之间的差异。目前,已经明确的是:

分类特征和数据示例:
颜色: 红,白,黑
为什么分类:red < white < black逻辑上是不正确

序数特征和数据示例:
状况: 旧的、翻新的、新的
为什么序数:old < renovated < new逻辑上是correct

类别到数字和序数到数字的编码方法:
分类数据的 One-Hot 编码
序数数据的任意数字

分类示例:

data = {'color': ['blue', 'green', 'green', 'red']}

One-Hot编码后的数字格式:

   color_blue  color_green  color_red
0           1            0          0
1           0            1          0
2           0            1          0
3           0            0          1

序数示例:

data = {'con': ['old', 'new', 'new', 'renovated']}

使用映射后的数字格式:旧

0    0
1    2
2    2
3    1

根据我的数据,随着条件从“旧”变为“新”,价格会上涨。数字中的“旧”被编码为“0”。数字中的“新”被编码为“2”。因此,随着状况的改善,价格也会上涨。正确的。
现在让我们看看“颜色”功能。就我而言,不同的颜色也会影响价格。例如,“黑色”会比“白色”更贵。但从上面提到的分类数据的数字表示来看,我没有看到像“条件”功能那样日益增加的依赖性。这是否意味着如果使用 one-hot 编码,颜色的变化不会影响回归模型中的价格?如果无论如何都不影响价格,为什么要使用 one-hot 编码进行回归呢?你能澄清一下吗?


UPDATE TO QUESTION:
First I introduce formula for linear regression: enter image description here
Let have a look at data representations for color: enter image description here Let's predict price for 1-st and 2-nd item using formula for both data representations:
One-hot encoding: In this case different thetas for different colors will exist and prediction will be:

Price (1 item) = 0 + 20*1 + 50*0 + 100*0 = 20$  (thetas are assumed for example)
Price (2 item) = 0 + 20*0 + 50*1 + 100*0 = 50$  (thetas are assumed for example)

颜色的序数编码:在这种情况下,所有颜色都有共同的 theta,但乘数不同:

Price (1 item) = 0 + 20*10 = 200$  (theta assumed for example)
Price (2 item) = 0 + 20*20 = 400$  (theta assumed for example)

在我的模型中,价格为白色


您会发现依赖性并没有增加。这种歧视的全部意义在于,颜色是not正如您已经指出的,您可以将其有意义地放置在连续体上的功能。

one-hot编码使得软件分析这一维度非常方便。您拥有一组布尔(存在/不存在)特征,而不是具有列出的值的特征“颜色”。例如,上面的第 0 行具有 color_blue = true、color_green = false 和 color_red = false 的特征。

您获得的预测数据应将其中每一个显示为单独的维度。例如,color_blue 的存在可能价值 200 美元,而绿色的价值为 -100 美元。

摘要:不要寻找穿过(不存在的)颜色轴的线性回归线;相反,寻找 color_* 因素,每种颜色都有一个因素。就您的分析算法而言,这些是完全独立的功能; “one-hot”编码(数字电路设计中的一个术语)仅仅是our处理这个问题的公约。

这对你的理解有帮助吗?

在 2015 年 12 月 4 日 02:03 Z 编辑问题后:

不,您的假设不正确:这两种表示不仅仅是为了方便。颜色排序适用于此示例 - 因为效果恰好是所选编码的简洁线性函数。正如您的示例所示,您的更简单的编码假设白到红到黑的定价是线性进展的。当绿色、蓝色和棕色的价格都是 25 美元,稀有的黄色价值 500 美元,而透明的价格降低了 1,000 美元时,你会怎么做?

另外,您如何提前知道黑色比白色更有价值,反过来又比红色更有价值?

考虑以小学学区为基础的房价情况,该地区有 50 个学区。如果您使用数字编码(学区号、字母顺序或其他任意顺序),回归软件将很难找到该数字与房价之间的相关性。 PS 107 是比 PS 32 或 PS 15 更贵的地区吗?阿丁顿和明地迷亚是否优于联合城和文图拉?

根据 one-hot 原则将这些特征拆分为 50 个不同的特征,将特征与编码解耦,并允许分析软件以一种数学上有意义的方式处理它们。无论如何,它并不完美——从 20 个特征扩展到 70 个意味着需要更长的时间才能收敛——但我们do为学区取得有意义的成果。

如果你愿意的话,你could现在按预期的值顺序对该特征进行编码,并获得合理的拟合,而准确性损失很小,并且模型的预测速度更快(变量更少)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

回归分析中的分类特征数据和序数特征数据差异? 的相关文章

  • 多个对象以某种方式相互干扰[原始版本]

    我有一个神经网络 NN 当应用于单个数据集时 它可以完美地工作 但是 如果我想在一组数据上运行神经网络 然后创建一个新的神经网络实例以在不同的数据集 甚至再次同一组数据 上运行 那么新实例将产生完全错误的预测 例如 对 XOR 模式进行训练
  • 调试VS 2005提示“操作不支持”

    我一直在调试 VS 2005 并将 启动外部程序 设置为 C Program Files Microsoft Visual Studio 10 0 Common7 IDE devenv exe 但按 F5 后出现此错误 尝试运行项目时出错
  • 如何让JComboBox中的内容居中显示?

    目前我有这个JComboBox 我怎样才能将其中的内容居中 String strs new String 15158133110 15158133124 15158133458 JComboBox com new JComboBox str
  • Android Jasper 报告

    Jasper Reporting 可以集成到 Android 应用程序中吗 我正在尝试从 jrxml 文件生成 PDF CSV 文本和 XLS 报告 但是 我没有看到 Android SDK 支持 net sf jasperreports
  • 查找总和为给定数字的值组合的函数

    这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合 但由于这个帖子已经有6年多了 我发这
  • Bootstrap 3 / 显示模式不适用于 javascript 方式

    我用Modal http getbootstrap com javascript modalsBootstrap 3 0 的功能 我有这个代码 a href myNestedContent Open the modal containing
  • 如何为不同操作系统/Python 版本编译 Python C/C++ 扩展?

    我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本 针对不同环境交叉编译扩展的标准方法是什么 葡萄酒 虚拟机 众包 我们使用虚拟机和Hudson http hud
  • 在 VS2008 的 XAML 编辑器中禁用 Intellisense?

    有没有办法在 Visual Studio 2008 的 XAML 编辑器中禁用 Intellisense 打字时通常会消耗很大的性能 有时我会等待十秒或更长时间 直到列表自动弹出 似乎在 选项 gt 文本编辑器 gt XAML 中 Inte
  • 查询联系人 - 有时返回空游标

    我正在尝试查询联系人的显示名称 Override public void onActivityResult int requestCode int resultCode Intent data switch requestCode case
  • Swing:创建可拖动组件...?

    我在网上搜索了可拖动 Swing 组件的示例 但我发现示例不完整或不起作用 我需要的是一个摇摆组件那可以是dragged通过鼠标 在另一个组件内 被拖拽的时候 应该已经 改变它的位置 而不仅仅是 跳 到目的地 我很欣赏无需非标准 API 即
  • 如何调试 Gulp 任务?

    如何调试我的中定义的 gulp 任务gulpfile js使用诸如 Google Chrome 调试器之类的调试器逐行单步执行任务的代码 对于 Node js 6 3 版本 您可以使用 inspect flag https nodejs o
  • ggplot2 的 fortify 函数出错

    我在 ggplot2 中使用 fortify 方法时收到此错误 Error in function classes fdef mtable unable to find an inherited method for function pr
  • 在门户中查看 Azure WebJob 计划?

    我创建了一个简单的 Azure WebJob 并通过 Visual Studio 集成制定了每天运行一次的计划 我已经部署了 WebJob 并看到它列在我在 Azure 上的应用程序中 schema http schemastore org
  • Apache Beam Pipeline 写表后查询表

    我有一个 Apache Beam Dataflow 管道 它将结果写入 BigQuery 表 然后我想查询该表以获取管道的单独部分 但是 我似乎无法弄清楚如何正确设置此管道依赖性 我编写的新表 然后想要查询 与一个单独的表连接以进行某些过滤
  • 嵌入式二进制资源 - 如何枚举嵌入的图像文件?

    我按照中的说明进行操作这本书 http www apress com book view 9781430225492 关于资源等的章节 我不太明白的是 如何替换它 images Add new BitmapImage new Uri Ima
  • 根据列中的部分字符串匹配选择数据框行

    我想根据列中字符串的部分匹配从数据框中选择行 例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法 我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法
  • 小于或等于

    使用暂停命令我发现错误位于此代码的第一行 if choice 1 if energy gt m2enc set a enemhp enemhp m1hpd earmr pause set a energy energy m1enc set
  • 无法将 /root/.rnd 加载到 RNG 中

    我想使用 Windows Open SSL 生成服务器证书 当我运行此命令行时 出现此错误 我应该怎么办 Command openssl req new x509 days 3650 key ca key out ca crt Error
  • jQuery:动态添加 DOM 元素时尝试将函数挂钩到 onclick,但它立即执行该函数

    我正在使用 jQuery 动态 我的意思是在运行时 向页面的 DOM 添加一个 span 元素 create add task button document createElement span attr id activityNameH
  • Android Espresso - 如果未选中,请单击复选框

    I have onView withId R id check box perform click 但我只想在尚未选中该复选框时执行此操作 我怎样才能在浓缩咖啡中做到这一点 我还想根据其之前的状态来切换复选框 开关 起初 我尝试用此方法打开

随机推荐