计算与其他列的双重类别关联的列中的特定字符。根据频率仓迭代进行

2023-12-06

我有一个巨大的数据框 df1，其过于简化的版本由 3 列组成：“单词”、“频率”和“字母”：

Words           Frequency   Letters
flower/tree     0.15        a(0.1)
tree            0.67        a(0.4)
planet          0.85        b(0.4)
tree/planet     0.42        c(0.5)
tree            0.89        a(0.6)
flower          0.21        b(0.4)
flower/planet   0.53        b
planet          0.07        a

使用 R（dplyr、应用族函数等）我想计算“字母”列中的每个字母（a、b、c）与“单词”列中的每个单词相关联的次数（花、树、行星），以迭代方式依赖于“频率”列值的频率仓。有 4 个 bin：[0, 0.25]、[0.25, 0.5]、[0.5, 0.75]、[0.75, 1]。

我期望输出数据帧 df2 看起来像这样：

Bin       Word    Letters    count_letters
0-0.25    flower  a          1
0-0.25    flower  b          1
0-0.25    tree    a          1
0-0.25    planet  a          1
0.25-0.5  tree    c          1
0.25-0.5  planet  c          1
0.5-0.75  flower  b          1
0.5-0.75  tree    a          1
0.5-0.75  planet  b          1
0.75-1    tree    a          1
0.75-1    planet  b          1

您可以使用cut to bin Frequency, substr清洁Letters, and tidyr::separate_rows取消嵌套Word。聚合与dplyr::count，你就准备好了：

library(tidyverse)

df %>% separate_rows(Words) %>% 
    count(Words, 
          Letters = substr(Letters, 1, 1),    # use regex if more than one letter
          Frequency = cut(Frequency, breaks = seq(0, 1, .25)))

## Source: local data frame [11 x 4]
## Groups: Frequency, Words [?]
## 
##     Frequency  Words Letters     n
##        <fctr>  <chr>   <chr> <int>
## 1    (0,0.25] flower       a     1
## 2    (0,0.25] flower       b     1
## 3    (0,0.25] planet       a     1
## 4    (0,0.25]   tree       a     1
## 5  (0.25,0.5] planet       c     1
## 6  (0.25,0.5]   tree       c     1
## 7  (0.5,0.75] flower       b     1
## 8  (0.5,0.75] planet       b     1
## 9  (0.5,0.75]   tree       a     1
## 10   (0.75,1] planet       b     1
## 11   (0.75,1]   tree       a     1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

dplyr

apply

计算与其他列的双重类别关联的列中的特定字符。根据频率仓迭代进行的相关文章

根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
删除缺失的数据值

我删除了原始帖子以便能够发布更大版本的数据集实际上总共有 418 行这是我正在进行的生存分析的数据第一列是 ID 号其他列标记为 V2 V20 有很多缺失的数据用表示我用coxph 函数来获取以下内容 Saves survi
R：ifelse 中的字符串列表

我正在寻找与 MySQL 中的 where var in 语句类似的东西我的代码如下 data lt data frame id 10001 10030 cc1 rep c a b c 10 attach data data new lt
dplyr 中的标准评估：全局环境中的函数出现“无法找到函数”错误

我试图在 dplyr 中对全局环境中的函数使用标准评估但出现无法找到函数错误这是一些代码 create data frame df lt data frame x rnorm 10 y rnorm 10 define arbitra
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
在 R 中使用逻辑 grep 抓取文本

下午好谢谢你帮我解答这个问题我有兴趣抓取一组超过 5000 个 URL 的列表我使用 lapply 和 readLines 使用下面的示例代码提取这些网页的文本 multipleURL lt c http dailymed nlm n
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
按组计算连续行中的值之间的差异

这是我的一个df 数据框 group value 1 10 1 20 1 25 2 5 2 10 2 15 我需要按组计算连续行中的值之间的差异所以我需要一个结果 group value diff 1 10 NA because the
R Leaflet Legend：colorBin-删除中断之间的小数

我正在使用 Leaflet 库在 R 中创建交互式 HTML 地图传说中采用的是colorBin用于创建将数据分为 6 个类别的方法使用min values and max values 我已经定义了美国社区调查收入数据的特定范围可能落
两个 pandas 列的字符串连接

我有一个关注者DataFrame from pandas import df DataFrame foo a b c bar 1 2 3 它看起来像这样 bar foo 0 1 a 1 2 b 2 3 c 现在我想要这样的东西 bar 0
R 多元一步预测和准确性

我想使用 R 来比较两个预测模型的 RMSE 均方根误差第一个模型使用 1966 年至 2000 年的估计值来预测 2001 年然后使用 1966 年至 2001 年的估计值来预测 2002 年依此类推直至 2015 年第二个模型使
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
读取R中打开的Excel文件

有没有办法将打开的Excel文件读入R 当Excel中打开一个excel文件时 Excel会对文件加锁比如R中的read方法无法访问该文件你能绕过这个锁吗 Thanks 编辑这发生在带有原始 Excel 的 Windows 下发生错
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本

随机推荐

使用 DirectShow 的视频录制分辨率

在 directshow 中录制时如何更改视频的屏幕分辨率因为我有一个 8 兆像素网络摄像头我用它来录制视频但保存视频后当我查看视频时它的播放效果就像是使用 1 3 兆像素相机录制的一样你需要使用IAMStreamConfig界
如何将 TypeScript 可变元组类型用于笛卡尔积函数？

TypeScript 4 0 开始支持以下概念可变参数元组类型一个很好的类型构造可以用于例如串联函数文档中的一个示例 type Arr readonly any function concat
了解canvas如何将图像转换为黑白图像

我发现这个脚本用于将图像转换为黑白图像效果很好但我希望更好地理解代码我将我的问题以注释的形式放在代码中谁能更详细地解释一下这里发生的事情 function grayscale src Creates a canvas element
ASP.Net Core 2.2 - 输入和输出的单独序列化器设置

ASP Net Core 2 2 允许使用设置序列化器设置MvcJsonOptions SerializerSettings财产问题是它会影响输入和输出有没有办法为输入反序列化和输出序列化提供单独的选项特别是我需要为Null
加载包含数字和字母的文本文件

我有一个文本文件如下所示 A B C 1 2 3 这只是我实际拥有的一个最小示例我的实际文件很大并且行数各不相同我想将此文件加载到 Octave 中但是该文件包含字母而不仅仅是数字当我尝试应用加载函数时出现错误我猜这是因为
如何在 Android 中播放直播视频

在我的项目中我需要播放实时流视频我看到很多评论说只有3 0才支持直播所以我必须使用模拟器3 0 但它不播放任何人都可以帮我吗这是我的代码 String SrcPath http akamedia2 lsops net live
在 pandas 中将列解析为日期时间的最快方法

我有以下超过 400 000 行的数据框 df pd DataFrame date 03 02 2015 23 00 03 02 2015 23 30 04 02 2015 00 00 04 02 2015 00 30 04 02 2015
克隆一个元素并多次添加到Dom中

I am cloning a dom element and inserting it in dom element multiple times div class toBeCloned some text div div div var
在 Rust 中使用递归函数生成树结构时的多个可变借用

我在实现一个递归函数时遇到问题该函数通过操作索引到不可变列表的可变索引列表来生成二叉树这是代码 enum Tree lt r T r gt Node Box
Vue路由器延迟加载在Vite中不起作用（错误：未知变量动态导入）

我在 Vue 路由器中构建了以下代码它在 Vue CLI 中完美运行 import store from store index js function getView view return gt import views settin
如何在linux中按特定部分对文件名进行排序？ [复制]

这个问题在这里已经有答案了我的构建文件夹中有很多文件我正在尝试使用 sort 命令对它们进行排序文件的结构如下名称版本 v 构建日期 xxx 2 0 0 SNAPSHOT V2014 07 10 18 01 05 logxxx 2
Android Spatialite 中 jsqlite.Database.internal_init 中的 java.lang.UnsatisfiedLinkError

我是 Android 开发和使用 Spatialite 的新手无法弄清楚为什么我的应用程序由于此错误而在一些设备上崩溃 java lang UnsatisfiedLinkError 未找到 void jsqlite Database in
(403) 将事件添加到日历时未配置访问

今天我在向日历添加新事件时开始收到此错误 Fatal error Uncaught exception apiServiceException with message Error calling POST https www googl
如果 DateTime 对象为空

我在表单提交后返回一些搜索结果一切工作正常直到我到达一个 SMALLDATETIME 并允许 NULL 的字段返回的行中至少有一行的字段为 NULL 正如您在下面的代码中所看到的当它不为 NULL 时我将其从 Date 转换为 S
即使设置了可编辑行为，也无法在 NSPopover 上编辑 NSTextField

我有一个应用程序它打开弹出窗口NSTextField 文本字段不可编辑文本字段的行为设置为Editable 我仍然可以将文本粘贴和复制到此字段但无法编辑它任何人都知道可能出了什么问题不确定您是否仍然需要答案但可能还有其他人仍在
在 XSD 中将日期类型的最大长度设置为 0
如何使用 iText 在 PDF 中嵌入 Helvetica 字体？

如何使用 iText 在 PDF 中嵌入 Helvetica 字体以下不起作用 BaseFont helvetica BaseFont createFont BaseFont HELVETICA BaseFont CP1252 BaseF
在 MS Access 图像控件中显示/加载 URL 中的图片 [关闭]

Closed 这个问题需要多问focused 目前不接受答案我问这个问题并回答它因为我想我们中的许多人以前都曾问过这种情况并为此苦苦挣扎希望这对未来的读者和开发人员有所帮助如何将超链接网页图片显示加载到ms access图像控件
具有动态设置的dense_shape的TensorFlow SparseTensor

我之前问过这个问题在 TensorFlow 上创建布尔掩码关于如何仅将某些索引设置为 1 其余索引设置为 0 来获取张量我认为 MZHm 给出的答案可以完全解决我的问题虽然论证dense shape of tf SparseTenso
计算与其他列的双重类别关联的列中的特定字符。根据频率仓迭代进行

我有一个巨大的数据框 df1 其过于简化的版本由 3 列组成单词频率和字母 Words Frequency Letters flower tree 0 15 a 0 1 tree 0 67 a 0 4 planet 0 85 b 0

计算与其他列的双重类别关联的列中的特定字符。根据频率仓迭代进行

计算与其他列的双重类别关联的列中的特定字符。根据频率仓迭代进行 的相关文章

随机推荐

热门标签

计算与其他列的双重类别关联的列中的特定字符。根据频率仓迭代进行的相关文章