如何在 R 中使用大数据对多个变量进行热编码?

2023-12-05

我目前有一个包含 260,000 行和 50 列的数据框,其中 3 列是数字,其余是分类。我想要对分类列进行一次热编码,以便执行 PCA 并使用回归来预测类别。我怎样才能在 R 中完成下面的例子?

Example:
V1 V2 V3 V4 V5 .... VN-1 VN

to

V1_a V1_b V2_a V2_b V2_c V3_a V3_b and so on

您可以使用model.matrix or sparse.model.matrix。像这样的东西:

sparse.model.matrix(~. -1, data = your_data)

The ~.告诉 R 你的整个表(.)是某个假设模型的右侧,并且-1说忽略拦截。如果没有-1你的第一列将是一个由 1 组成的向量。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 R 中使用大数据对多个变量进行热编码? 的相关文章

  • 如何在 Shiny 中提取动态生成的输入值?

    我正在创建一个闪亮的应用程序 它将根据客户的不同功能为客户生成分数 在我闪亮的应用程序中 我提供了 checkboxGroupInput 来选择所需的功能 根据所选功能 应用程序将动态地将 numericInput 添加到 Web ui 以
  • `as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

    我注意到定义as matrix or as data frame作为 S4 类的 S3 方法 使例如lm formula objS4 and prcomp object 开箱即用 如果它们被定义为 S4 方法 则这不起作用 为什么将方法定义
  • 行对名称中具有特定模式的列求和

    我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
  • 更新 R6 对象实例中的方法定义

    如何更新 R6 类实例的方法定义 正如我所期望的 S3 使用当前的方法定义 对于 R5 参考类 我可以使用 myInstance myInstance copy 在 R6 中 我尝试了 myInstance myInstance clone
  • R Shinydashboard 自定义 CSS 到 valueBox

    我一直在尝试将 valueBox 的颜色更改为自定义颜色 超出 validColors 中可用的颜色 但一直无法这样做 我知道有一种方法可以使用标签来包含自定义 CSS 但是我无法将它们放在正确的位置 ui lt dashboardPage
  • data.table 抛出“找不到对象”错误[重复]

    这个问题在这里已经有答案了 我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时 我可以让它工作 但当我在调试器中或在包测试中使用它时却无法工作 问题是我
  • 增加雷达图中长轴标签的空间

    我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了 我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
  • R中IF函数的使用

    我正在短跑ifR 中的函数 但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
  • ggplot:如何限制条形图中的输出,以便仅显示最频繁出现的情况?

    我几个小时以来一直在寻找这个简单的东西 但没有结果 我有一个数据框 其中一列为变量 国家 地区 我想要两件事以下 绘制最常见的国家 地区 最常见的位于顶部 找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图
  • 平滑连续 2D 点

    UPDATE 感谢 user20650和 李哲源Zheyuan Li 这是我想出的解决方案 Example data set df 3600 observations points Create a vector of the cumula
  • 扩展数据框以使其具有与原始行中两列的范围一样多的行[重复]

    这个问题在这里已经有答案了 我有一个数据框如下 structure list symbol c u n v i a start c 9L 6L 10L 8L 7L end c 14L 15L 12L 13L 11L Names c symb
  • R 改变构面的顺序

    我正在尝试将方面的顺序从 BA SLG 更改为 SLG BA 我发现了与此类似的问题 但我认为我的解决方案可能不起作用 因为我已经在Excel中汇总了数据 因此 我的数据框可能会有所不同 无论如何 我尝试实现这个但无济于事 df2 lt f
  • R - 基于列名称的子集

    我的数据框有超过 120 列 变量 我想根据列名称创建子集 例如 我想创建一个子集 其中列名称包含字符串 心情 这可能吗 我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
  • rvest 函数 html_nodes 返回 {xml_nodeset (0)}

    我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格 其中包
  • 在 R 上安装 TDA 包时出错:目标“diag.o”的配方失败

    使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息 它似乎与制作 CGAL diag cpp 和 或 diag o 最后的完整错误打印输出 有关 我仔细看了这个 在 R 上安装 TDA 包时出错 htt
  • 无法编译包“maps”

    当我安装 maps 包时 安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
  • 我如何查看 quantmod 包中所有可用的数据系列?

    如何显示可用的所有报价 数据系列的列表 例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码 它试图将它们采用雅虎可接受的格式 但
  • 条件和分组 mutate dplyr

    假设我有以下每个抽屉库存增加的数据 gt socks year drawer nbr sock total 1990 1 2 1991 1 2 1990 2 3 1991 2 4 1990 3 2 1991 3 1 我想要一个二进制变量来标
  • 将整个包传递给雪簇

    我正在尝试并行化 使用snow parLapply 一些依赖于包 即除snow 调用函数中引用的对象parLapply必须使用显式传递给集群clusterExport 有没有办法将整个包传递到集群 而不必显式命名每个函数 包括用户函数调用的
  • 是否有weighted.median()函数?

    我正在寻找类似形式的东西weighted mean 我通过搜索找到了一些解决方案 这些解决方案写出了整个函数 但希望有一些更用户友好的解决方案 以下软件包都有计算加权中位数的函数 aroma light isotone limma cwhm

随机推荐

  • Codeigniter SMTP 无法连接

    我正在使用 Codeigniter 3 并且我的网站上有一个简单的联系表 此联系表单在我的本地主机 XAMPP 环境中完美运行 但在我的共享 Web 托管 BT 上却不起作用 我无法弄清楚问题是什么 我一直在与他们的支持人员联系 显然 如果
  • site_url() 在 codeigniter 框架中无法正常工作

    以下代码对于 Codeigniter 框架无法正常工作 这是我的观点 a href gt Back to Main a 您应该在控制器构造方法或像这样调用视图的函数中加载 url helper this gt load gt helper
  • 在 AngularJS 中的页面之间共享数据返回空

    通常 我编写 SPA 并且通过服务在控制器之间共享数据很简单 我没有使用 SPA 格式 没有使用 ng view 并尝试在页面之间共享数据 但在加载第二个页面 以获取数据 时它是空的 第 1 页 索引 html div div
  • fastapi (starlette) RedirectResponse 重定向到 post 而不是 get 方法

    返回 RedirectResponse 对象后 我遇到了奇怪的重定向行为 事件 py router APIRouter router post create response model EventBase async def event
  • Android 更改小部件背景图片

    在过去的两天里 我一直在努力改变我的小部件的背景 基于一些 if 语句 现在删除 只是想从类中更改小部件背景 下面是我的源代码 不过 怎么了 我之前已经更改了图像 例如背景 但无法让它适用于我的小部件 谢谢 顺便说一句 这是我最近的尝试 W
  • 如何根据产品类别在 WooCommerce 添加到购物车按钮下方添加文本

    我尝试在某些类别的产品页面上的 WooCommerce 添加到购物车按钮下方添加一个 div 我在这里有点不知所措 这段代码没有破坏任何东西 但文本没有显示 我试过了 woocommerce div product form cart af
  • (flask)-sqlalchemy查询,必须导入所有模型

    我对 Flask 和 Flask SQLAlchemy 有一个问题 对于任何查询 我都需要导入所有相关模型 现在我的 auth views py 看起来像这样 编程的前几行所以只是一个测试视图 from flask import jsoni
  • 如何使用 jQuery 动态添加组合框

    我有这个正在创建的工作代码one组合框 你可以在这里看到它的工作原理 jsfiddle body on change combo function var selectedValue this val if this find option
  • 使用 django-allauth 注册后阻止用户登录

    我正在为我的 django 应用程序使用 django allauth 默认情况下 当用户成功注册时 他们会自动登录 如何覆盖默认行为并阻止用户在成功注册后登录 用户注册后 必须将他 她重定向到登录页面 我已禁用电子邮件验证 谢谢 sett
  • 合并大量 data.frames [重复]

    这个问题在这里已经有答案了 可能的重复 同时合并列表中的多个数据框 example data frames df1 data frame id c 1 73 2 10 43 v1 c 1 2 3 4 5 br df2 data frame
  • 检查 kubectl 版本时出现“身份验证为:您所在的匿名组”错误

    我正在尝试在我的计算机中设置 kubectl 工具来远程管理 Kubernetes 集群并使用 Helm 我正在 Ubuntu 16 04 机器上尝试 我通过以下链接关注官方 Kubernetes 文档 https kubernetes i
  • 将日历设置为下周四

    我正在 Android 中开发一个应用程序 该应用程序的服务必须在每周四和周日 22 00 执行 我真正需要的是将日历设置为该日期和时间 但是 我不确定该怎么做 Calendar calendar Calendar getInstance
  • 从 Azure 云表删除时出错 - ResourceNotFound

    我在从天蓝色表中删除对象时遇到间歇性问题 它只影响我大约 1 的尝试 如果稍后再次进行相同的调用 那么它工作正常 但我很想找出背后的原因 我在谷歌上搜索了一下 发现缺乏关于如何创建非常可靠的删除 插入和更新代码的文档 这令人非常惊讶 这一切
  • 飞镖双分精度

    执行此操作的正确方法是什么 399 9 100 我期望看到的是 3 999 但结果是 3 9989999999999997 你看到的结果是correct 这不是你想要的 双精度数不是精确值 写 399 9 得到的双倍实际上是精确值 399
  • 在 Android 上从 .png 文件绘制自定义视图的背景

    我通过扩展 View 创建了一个自定义 View 在 onDraw 中 我设法画了一些圆圈和其他东西 但现在我想从资源 SD 卡或流 添加背景 这实际上是我从服务器下载的地图 然后在其上绘制 适用于 Android 8 Override p
  • 当重复使用基本页面时,是否有一种方法可以加快 PDF 页面合并速度(基本上是在一个页面与另一个页面添加水印)?

    澄清 我不想向 PDF 文件添加页面 我想将内容添加到一个非常大的 PDF 页面 页面有时会发生变化 每次内容都不同 我正在使用 pypdf2 和 reportlab 对大 PDF 页面 10MB 进行少量添加 这需要 30 秒或更长时间
  • 设置的最低有效位的位置

    我正在寻找一种有效的方法来确定整数中设置的最低有效位的位置 例如对于 0x0FF0 则为 4 一个简单的实现是这样的 unsigned GetLowestBitPos unsigned value assert value 0 handle
  • Yii:视频上传失败

    我是伊比 我正在做什么来上传视频 因为我正在使用Uploadmiltifiles扩展名并点击此链接http www yiiframework com extension uploadmultifiles 我已经遵循了所有内容 但是当我上传视
  • Javascript 二维数组:增加特定项目的值

    我有一个带有整数的二维数组 我想要的只是用数字增加特定项目 初始状态 var arr1 var arr2 1 2 3 arr1 push arr2 arr1 push arr2 arr1 push arr2 arr1 现在看起来像这样 0
  • 如何在 R 中使用大数据对多个变量进行热编码?

    我目前有一个包含 260 000 行和 50 列的数据框 其中 3 列是数字 其余是分类 我想要对分类列进行一次热编码 以便执行 PCA 并使用回归来预测类别 我怎样才能在 R 中完成下面的例子 Example V1 V2 V3 V4 V5