回归分析中的分类特征数据和序数特征数据差异？

2024-02-06

在进行回归分析时，我试图完全理解分类数据和序数数据之间的差异。目前，已经明确的是：

分类特征和数据示例：
颜色: 红,白,黑
为什么分类：red < white < black逻辑上是不正确

序数特征和数据示例：
状况：旧的、翻新的、新的
为什么序数：old < renovated < new逻辑上是correct

类别到数字和序数到数字的编码方法：
分类数据的 One-Hot 编码
序数数据的任意数字

分类示例：

data = {'color': ['blue', 'green', 'green', 'red']}

One-Hot编码后的数字格式：

   color_blue  color_green  color_red
0           1            0          0
1           0            1          0
2           0            1          0
3           0            0          1

序数示例：

data = {'con': ['old', 'new', 'new', 'renovated']}

使用映射后的数字格式：旧

根据我的数据，随着条件从“旧”变为“新”，价格会上涨。数字中的“旧”被编码为“0”。数字中的“新”被编码为“2”。因此，随着状况的改善，价格也会上涨。正确的。
现在让我们看看“颜色”功能。就我而言，不同的颜色也会影响价格。例如，“黑色”会比“白色”更贵。但从上面提到的分类数据的数字表示来看，我没有看到像“条件”功能那样日益增加的依赖性。这是否意味着如果使用 one-hot 编码，颜色的变化不会影响回归模型中的价格？如果无论如何都不影响价格，为什么要使用 one-hot 编码进行回归呢？你能澄清一下吗？

UPDATE TO QUESTION:
First I introduce formula for linear regression:
Let have a look at data representations for color: Let's predict price for 1-st and 2-nd item using formula for both data representations:
One-hot encoding: In this case different thetas for different colors will exist and prediction will be:

Price (1 item) = 0 + 20*1 + 50*0 + 100*0 = 20$  (thetas are assumed for example)
Price (2 item) = 0 + 20*0 + 50*1 + 100*0 = 50$  (thetas are assumed for example)

颜色的序数编码：在这种情况下，所有颜色都有共同的 theta，但乘数不同：

Price (1 item) = 0 + 20*10 = 200$  (theta assumed for example)
Price (2 item) = 0 + 20*20 = 400$  (theta assumed for example)

在我的模型中，价格为白色

您会发现依赖性并没有增加。这种歧视的全部意义在于，颜色是not正如您已经指出的，您可以将其有意义地放置在连续体上的功能。

one-hot编码使得软件分析这一维度非常方便。您拥有一组布尔（存在/不存在）特征，而不是具有列出的值的特征“颜色”。例如，上面的第 0 行具有 color_blue = true、color_green = false 和 color_red = false 的特征。

您获得的预测数据应将其中每一个显示为单独的维度。例如，color_blue 的存在可能价值 200 美元，而绿色的价值为 -100 美元。

摘要：不要寻找穿过（不存在的）颜色轴的线性回归线；相反，寻找 color_* 因素，每种颜色都有一个因素。就您的分析算法而言，这些是完全独立的功能； “one-hot”编码（数字电路设计中的一个术语）仅仅是our处理这个问题的公约。

这对你的理解有帮助吗？

在 2015 年 12 月 4 日 02:03 Z 编辑问题后：

不，您的假设不正确：这两种表示不仅仅是为了方便。颜色排序适用于此示例 - 因为效果恰好是所选编码的简洁线性函数。正如您的示例所示，您的更简单的编码假设白到红到黑的定价是线性进展的。当绿色、蓝色和棕色的价格都是 25 美元，稀有的黄色价值 500 美元，而透明的价格降低了 1,000 美元时，你会怎么做？

另外，您如何提前知道黑色比白色更有价值，反过来又比红色更有价值？

考虑以小学学区为基础的房价情况，该地区有 50 个学区。如果您使用数字编码（学区号、字母顺序或其他任意顺序），回归软件将很难找到该数字与房价之间的相关性。 PS 107 是比 PS 32 或 PS 15 更贵的地区吗？阿丁顿和明地迷亚是否优于联合城和文图拉？

根据 one-hot 原则将这些特征拆分为 50 个不同的特征，将特征与编码解耦，并允许分析软件以一种数学上有意义的方式处理它们。无论如何，它并不完美——从 20 个特征扩展到 70 个意味着需要更长的时间才能收敛——但我们do为学区取得有意义的成果。

如果你愿意的话，你could现在按预期的值顺序对该特征进行编码，并获得合理的拟合，而准确性损失很小，并且模型的预测速度更快（变量更少）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

回归分析中的分类特征数据和序数特征数据差异？的相关文章

多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
调试VS 2005提示“操作不支持”

我一直在调试 VS 2005 并将启动外部程序设置为 C Program Files Microsoft Visual Studio 10 0 Common7 IDE devenv exe 但按 F5 后出现此错误尝试运行项目时出错
如何让JComboBox中的内容居中显示？

目前我有这个JComboBox 我怎样才能将其中的内容居中 String strs new String 15158133110 15158133124 15158133458 JComboBox com new JComboBox str
Android Jasper 报告

Jasper Reporting 可以集成到 Android 应用程序中吗我正在尝试从 jrxml 文件生成 PDF CSV 文本和 XLS 报告但是我没有看到 Android SDK 支持 net sf jasperreports
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Bootstrap 3 / 显示模式不适用于 javascript 方式

我用Modal http getbootstrap com javascript modalsBootstrap 3 0 的功能我有这个代码 a href myNestedContent Open the modal containing
如何为不同操作系统/Python 版本编译 Python C/C++ 扩展？

我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本针对不同环境交叉编译扩展的标准方法是什么葡萄酒虚拟机众包我们使用虚拟机和Hudson http hud
在 VS2008 的 XAML 编辑器中禁用 Intellisense？

有没有办法在 Visual Studio 2008 的 XAML 编辑器中禁用 Intellisense 打字时通常会消耗很大的性能有时我会等待十秒或更长时间直到列表自动弹出似乎在选项 gt 文本编辑器 gt XAML 中 Inte
查询联系人 - 有时返回空游标

我正在尝试查询联系人的显示名称 Override public void onActivityResult int requestCode int resultCode Intent data switch requestCode case
Swing：创建可拖动组件...？

我在网上搜索了可拖动 Swing 组件的示例但我发现示例不完整或不起作用我需要的是一个摇摆组件那可以是dragged通过鼠标在另一个组件内被拖拽的时候应该已经改变它的位置而不仅仅是跳到目的地我很欣赏无需非标准 API 即
如何调试 Gulp 任务？

如何调试我的中定义的 gulp 任务gulpfile js使用诸如 Google Chrome 调试器之类的调试器逐行单步执行任务的代码对于 Node js 6 3 版本您可以使用 inspect flag https nodejs o
ggplot2 的 fortify 函数出错

我在 ggplot2 中使用 fortify 方法时收到此错误 Error in function classes fdef mtable unable to find an inherited method for function pr
在门户中查看 Azure WebJob 计划？

我创建了一个简单的 Azure WebJob 并通过 Visual Studio 集成制定了每天运行一次的计划我已经部署了 WebJob 并看到它列在我在 Azure 上的应用程序中 schema http schemastore org
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤
嵌入式二进制资源 - 如何枚举嵌入的图像文件？

我按照中的说明进行操作这本书 http www apress com book view 9781430225492 关于资源等的章节我不太明白的是如何替换它 images Add new BitmapImage new Uri Ima
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法
小于或等于

使用暂停命令我发现错误位于此代码的第一行 if choice 1 if energy gt m2enc set a enemhp enemhp m1hpd earmr pause set a energy energy m1enc set
无法将 /root/.rnd 加载到 RNG 中

我想使用 Windows Open SSL 生成服务器证书当我运行此命令行时出现此错误我应该怎么办 Command openssl req new x509 days 3650 key ca key out ca crt Error
jQuery：动态添加 DOM 元素时尝试将函数挂钩到 onclick，但它立即执行该函数

我正在使用 jQuery 动态我的意思是在运行时向页面的 DOM 添加一个 span 元素 create add task button document createElement span attr id activityNameH
Android Espresso - 如果未选中，请单击复选框

I have onView withId R id check box perform click 但我只想在尚未选中该复选框时执行此操作我怎样才能在浓缩咖啡中做到这一点我还想根据其之前的状态来切换复选框开关起初我尝试用此方法打开

随机推荐

如何使用 scipy.optimize.linprog 获得整数解？

当我解决线性规划问题时就像下面的公式一样我希望 x 的结果全部为 int 类型考虑以下问题最小化 f 1 x 0 4 x 1 须遵守 3 x 0 1 x 1 lt 6 1 x 0 2 x 1 lt 4 x 1 gt 3 where
[mccabe] 循环复杂度过高错误是什么意思？

我正在 repl it 中为一个学校项目创建一个 CYOA 并且需要一个列表所以我所做的就是在每次输入时为用户添加一个选项来查看他们的项目在主要的分割处我放了 Items Flask of Root Beer print Intro n
python：使用 gdal 绑定在内存中执行 gdalwarp

我目前有一个加工链R下载MODIS数据然后调用gdalwarp从系统将特定子数据集例如 NDVI 重新投影到 WGS1984 中所结果的GeoTiffs然后被收集到一个HDF5文件以供进一步处理现在我将处理链移至python 我想知道
计算 BigQuery 中分区的运行总和

我正在尝试计算分区上的运行总和这似乎比中建议的方法更容易和更快BigQuery SQL 运行总计 https stackoverflow com questions 14664578 bigquery sql running totals
使用 R 转换为 NetCDF 时保留栅格变量名称

获取多年每月温度数据的光栅文件该文件附有名称可通过以下方式访问names object 采用以下格式 Jan 1981 Feb 1981 等使用以下代码的两年示例文件here http www filedropper com samp
如何使用 Windows 内置的 mp3 解码器访问原始解码音频数据？

从 Windows Media Player 6 1 开始 Windows 就有了自己的 mp3 解码器我可以使用该解码器来访问解码的音频原始数据吗我认为这必须通过 DirectShow 来完成 Related but not th
从 Git Bash 调用 notepad++

我在用msysgit http msysgit github com 在 Windows 7 中如何从 Git Bash 调用 notepad 就像我们使用默认记事本一样比如说 name usename记事本文本文件 txt 相反我希
PostgreSQL递归选择从叶子中查找根元素

我正在为论坛开发一个数据库其中包含线程和消息线程以一条没有消息的消息开始parent id 回复是消息parent id 我有一张消息表每个项目都引用同一个表上的项目将它们作为父子关系 create table messages i
JQuery 可见显示

我有以下代码 loading css visibility visible loading show 由于某些我不知道的原因当我使用 CSS 时它可以工作但是当我使用 show 时这是行不通的请帮忙我是 JQuery 的新手谢谢
从 C# 中的 List 中选择 N 个随机元素

我需要一个快速算法从通用列表中选择 5 个随机元素例如我想从 a 中获取 5 个随机元素List
在 Angular JS 上悬停时添加类

我试图在悬停时添加一个类li下面代码中的 Angular 元素 li class pull left a href interna html img src assets images cola png a li 这就是页面将具有的所有功能
如何使用AngularJS动画实现翻转效果？

实现这一目标的最佳方式是什么翻转效果 http davidwalsh name demo css flip php使用 AngularJS 动画我希望点击时出现翻转效果每次单击它时它都应该翻转到另一侧我想理想情况下我正在寻找使用
MySQL ALTER TABLE 在非常大的表上 - 运行它安全吗？

我有一个 MySQL 数据库其中有一个包含 400 万行的 MyISAM 表我大约每周更新一次此表添加大约 2000 个新行更新后我将表更改如下 ALTER TABLE x ORDER BY PK DESC 我按主键字段按降序对表
使用实体框架时，为什么我的带有数据注释的列不会映射

我有一堂课看起来像这样 public class Analyst Column Internal ID public int ID get set if this is named like the column it works Col
Apache Tomcat WebService 中的服务出现故障

在 Web 服务中添加此方法后我的 apache tomcat Web 服务出现错误服务 public String getAllEvent JSONArray jsonArray new JSONArray try Class forN
在 sqlalchemy 中定义列 func.count 的名称

有两张桌子 Tbl1 Table tbl 1 metadata Column id Integer primary key True Column user id Integer ForeignKey user id nullable Fa
如何在 Node.js 中获取服务器目录之上的文件

我正在尝试使用 node js 服务器提供音频文件问题是我希望能够获取计算机中的任何音频文件但我不知道如何使 html 中的音频元素与服务器上方的目录一起使用有this https stackoverflow com questio
Laravel classloader.php 错误无法打开流：没有这样的文件或目录

我能够正常运行 php artisan migrate 如果我使用 Request all 我能够获取所有表单输入但是当我尝试将数据添加到我的 mysql 数据库表时我收到以下错误 ErrorException in ClassLoad
Eclipse 片段项目是否有与 BundleActivator 等效的工具？

我正在构建一个 Eclipse 插件它在常规插件项目中提供一组核心功能我通过片段项目提供的可选功能但我需要片段在启动时向主插件注册自己我无法在片段项目中拥有 Bundle Activator 所以我想知道是否有一些替代机制来声明一个
回归分析中的分类特征数据和序数特征数据差异？

在进行回归分析时我试图完全理解分类数据和序数数据之间的差异目前已经明确的是分类特征和数据示例颜色红白黑为什么分类 red lt white lt black逻辑上是不正确序数特征和数据示例状况旧的翻新的新的为什么序

回归分析中的分类特征数据和序数特征数据差异？

这对你的理解有帮助吗？

回归分析中的分类特征数据和序数特征数据差异？ 的相关文章

随机推荐

热门标签

回归分析中的分类特征数据和序数特征数据差异？的相关文章