根据字典中单词的值检索句子得分

2023-12-14

Edited df and dict

我有一个包含句子的数据框：

df <- data_frame(text = c("I love pandas", "I hate monkeys", "pandas pandas pandas", "monkeys monkeys"))

以及包含单词及其相应分数的字典：

dict <- data_frame(word = c("love", "hate", "pandas", "monkeys"),
                   score = c(1,-1,1,-1))

我想附加一个“分数”列df这将计算每个句子的分数总和：

预期成绩

                  text score
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     3
4      monkeys monkeys    -2

Update

以下是迄今为止的结果：

阿克伦的方法

建议1

df %>% mutate(score = sapply(strsplit(text, ' '), function(x) with(dict, sum(score[word %in% x]))))

请注意，为了使此方法起作用，我必须使用data_frame()创造df and dict代替data.frame()否则我得到：Error in strsplit(text, " ") : non-character argument

Source: local data frame [4 x 2]

                  text score
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     1
4      monkeys monkeys    -1

这不考虑单个字符串中的多个匹配。接近预期结果，但尚未完全实现。

建议2

我对评论中 akrun 的建议进行了一些调整，将其应用到编辑后的帖子中

cbind(df, unnest(stri_split_fixed(df$text, ' '), group) %>% 
        group_by(group) %>% 
        summarise(score = sum(dict$score[dict$word %in% x])) %>% 
        ungroup() %>% select(-group) %>% data.frame())

这不考虑字符串中的多个匹配：

                  text score
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     1
4      monkeys monkeys    -1

理查德·斯克里文的方法

建议1

group_by(df, text) %>%
mutate(score = sum(dict$score[stri_detect_fixed(text, dict$word)]))

更新所有包后，现在可以使用（尽管它不考虑多个匹配）

Source: local data frame [4 x 2]
Groups: text

                  text score
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     1
4      monkeys monkeys    -1

建议2

total <- with(dict, {
  vapply(df$text, function(X) {
    sum(score[vapply(word, grepl, logical(1L), x = X, fixed = TRUE)])
  }, 1)
})

cbind(df, total)

这给出了相同的结果：

                  text total
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     1
4      monkeys monkeys    -1

建议3

s <- strsplit(df$text, " ")
total <- vapply(s, function(x) sum(with(dict, score[match(x, word, 0L)])), 1)
cbind(df, total)

这实际上有效：

                  text total
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     3
4      monkeys monkeys    -2

Thelatemail的方法

res <- sapply(dict$word, function(x) {
  sapply(gregexpr(x,df$text),function(y) length(y[y!=-1]) )
})

cbind(df, score = rowSums(res * dict$score))

请注意，我添加了cbind()部分。这实际上符合预期的结果。

                  text score
1        I love pandas     2
2       I hate monkeys    -2
3 pandas pandas pandas     3
4      monkeys monkeys    -2

最终答案

受到 akrun 建议的启发，这是我最终写的最dplyr-式解决方案：

library(dplyr)
library(tidyr)
library(stringi)

bind_cols(df, unnest(stri_split_fixed(df$text, ' '), group) %>% 
            group_by(x) %>% mutate(score = sum(dict$score[dict$word %in% x])) %>% 
            group_by(group) %>% 
            summarise(score = sum(score)) %>% 
            select(-group))

尽管我会实施理查德·斯克里文的建议＃3，因为它是最有效的。

基准

以下是适用于更大数据集的建议（df共 93 个句子dict14K 字）使用microbenchmark():

mbm = microbenchmark(
  akrun = df %>% mutate(score = sapply(stri_detect_fixed(text, ' '), function(x) with(dict, sum(score[word %in% x])))),
  akrun2 = cbind(df, unnest(stri_split_fixed(df$text, ' '), group) %>% group_by(group) %>% summarise(score = sum(dict$score[dict$word %in% x])) %>% ungroup() %>% select(-group) %>% data.frame()),
  rscriven1 = group_by(df, text) %>% mutate(score = sum(dict$score[stri_detect_fixed(text, dict$word)])),
  rscriven2 = cbind(df, score = with(dict, { vapply(df$text, function(X) { sum(score[vapply(word, grepl, logical(1L), x = X, fixed = TRUE)])}, 1)})),
  rscriven3 = cbind(df, score = vapply(strsplit(df$text, " "), function(x) sum(with(dict, score[match(x, word, 0L)])), 1)),
  thelatemail = cbind(df, score = rowSums(sapply(dict$word, function(x) { sapply(gregexpr(x,df$text),function(y) length(y[y!=-1]) ) }) * dict$score)),
  sbeaupre = bind_cols(df, unnest(stri_split_fixed(df$text, ' '), group) %>% group_by(x) %>% mutate(score = sum(dict$score[dict$word %in% x])) %>% group_by(group) %>% summarise(score = sum(score)) %>% select(-group)),
  times = 10
)

结果：

enter image description here

Update :这是最简单的dplyr我到目前为止找到的方法。我会添加一个stringi功能来加快速度。前提是没有相同的句子df$text，我们可以按该列分组，然后应用mutate()

注意：软件包版本为 dplyr 0.4.1 和 stringi 0.4.1

library(dplyr)
library(stringi)

group_by(df, text) %>%
    mutate(score = sum(dict$score[stri_detect_fixed(text, dict$word)]))
# Source: local data frame [2 x 2]
# Groups: text
#
#             text score
# 1  I love pandas     2
# 2 I hate monkeys    -2

我删除了do()我昨晚发布的方法，但是你可以在编辑历史中找到它。对我来说，这似乎没有必要，因为上述方法也有效，而且更有效dplyr方法来做到这一点。

此外，如果您愿意接受非dplyr答案，这里有两个使用基本函数。

total <- with(dict, {
    vapply(df$text, function(X) {
        sum(score[vapply(word, grepl, logical(1L), x = X, fixed = TRUE)])
    }, 1)
})
cbind(df, total)
#             text total
# 1  I love pandas     2
# 2 I hate monkeys    -2

或者使用替代方法strsplit()产生相同的结果

s <- strsplit(df$text, " ")
total <- vapply(s, function(x) sum(with(dict, score[match(x, word, 0L)])), 1)
cbind(df, total)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

lapply

sapply

stringi

根据字典中单词的值检索句子得分的相关文章

将outer()应用于两个列表

我有一个清单说exm list elm1 c a b elm2 c b c d elm3 c b c d e 我想对以下两个元素的每个组合应用一个函数exm e g length intersect exm elm1 exm elm2 结
R randomForest - 如何使用“getTree”树进行预测

背景我可以在 R 中创建一个随机森林 set seed 1 library randomForest data iris model rf lt randomForest Species data iris importance TRUE
解释R中模型多重共线性的别名表测试

有人可以帮助我解释别名函数输出以测试多元回归模型中的多重共线性我知道我的模型中的一些预测变量是高度相关的我想使用别名表来识别它们 Model Score Comments Pros Cons Advice Response Value
R 编程：创建堆叠条形图，每个堆叠条形具有可变颜色

我正在尝试创建一个堆叠条形图每个堆叠条形图中的颜色可变也就是说一个条形图在红色上方显示蓝色下一个条形图在紫色上方显示红色等等我还想保留堆叠图表的功能十分感谢大家 Adam 下图使用上面的代码创建显示了主要汽车制造商生产的汽
将选择标准添加到 read.table

让我们采用以下我导入的数据集的简化版本read table a lt as data frame c M M F F F b lt as data frame c 25 22 33 17 18 df lt cbind a b colname
as.data.frame 将嵌套列表展平为单行，而不是为每个记录创建行[重复]

这个问题在这里已经有答案了我有一个嵌套列表如下所示 mylist lt vector list 2 mylist 1 name lt The Tucson IOT Meetup Group mylist 1 state lt AZ my
R 数据框到嵌套列表

我想将这种格式的数据帧 tbl 转换为以下嵌套列表 tbllst library tidyr tbl lt tribble Col1 Col2 Col3 Var1 Var1 1 Var1 1 1 Var1 Var1 1 Var1 1 2 V
无法使用include_graphics在Rmarkdown中插入png（错误：文件不是PNG格式）

这个错误很奇怪当我编织文档时出现以下错误 Quitting from lines 42 43 sigminer doc Rmd Error in png readPNG path native TRUE info TRUE file i
R 中的匹配和计数字符串（DNA 的 k 聚体）

我有一个字符串列表 DNA 序列包括 A T C G 我想找到所有匹配项并插入到表中该表的列都是这些 DNA 字母表的所有可能组合 4 k k 是每个匹配项的长度 K mer 必须由用户指定行代表 DNA 字母表的数量在列表中按顺序匹
通过变量分割 data.frame [重复]

这个问题在这里已经有答案了我将多个主题的数据存储在一个 CSV 文件中导入 CSV 文件后我想将每个参与者的数据拆分到自己的 data frame 中更确切地说我想采用下面的示例数据并创建三个新的 data frames 每个
R2WinBUGS - 使用模拟数据进行逻辑回归

我只是想知道是否有人有一些使用 R2WinBUGS 包来运行逻辑回归的 R 代码理想情况下使用模拟数据来生成真相和两个连续协变量 Thanks 基督教 PS 生成人工数据一维情况并通过 r2winbugs 运行 winbugs 的
在绘图中的所有坐标之间绘制线条

我有以下数据框 data lt data frame x c 5 1 3 2 5 7 12 y c 5 7 6 1 3 5 6 我可以使用 ggplot 函数绘制这些坐标并在这些坐标之间画一条线 ggplot data aes x y g
与 data.table 合并时防止重复列

我有两个数据表它们的列名部分相似 dfA lt read table text A B C D E F G iso year matchcode 1 0 1 1 1 0 1 0 NLD 2010 NLD2010 2 1 0 0 0 1 0
自动化 RStudio 处理 RMarkdown？

我有一个 RMarkdown 文件用于生成漂亮的 HTML 报告问题是我希望能够自动化它以便它可以在无头服务器上运行因此不会有人启动 Rstudio 并按下 knithtml 按钮而且 Rstudio 似乎正在做很多额外的魔法
R：使用 RGDAL 和 RASTER 包时抛出错误

给所有可能相关的人这是源代码 GRA D1 lt raster files 1 Sets up an empty output raster GRA D1 lt writeStart GRA D1 filename GRA D1 tif
添加有关白天/黄昏/夜晚/黎明的信息以在 R 中跟踪数据

我有一个数据集其中包含几个月的日期时间纬度和经度变量的跟踪数据如下所示 gt start lt as POSIXct 2018 08 01 00 00 00 format Y m d H M S tz UTC gt datetime
使用 R 迭代读取、操作多个 Excel 文件并将它们附加到一个数据帧中

在一个目录下我有多个具有相似格式的excel文件您可以从以下位置下载示例文件 here https www dropbox com s ho3visres55kpoy test zip dl 0 我需要循环文件和read excel
将值添加到 rCharts hPlot 工具提示

我想通过 rCharts 向标准 Highcharts 工具提示添加一些额外的值示例代码 require rCharts df lt data frame x c 1 5 y c 5 1 z c A B C D E name c K L
dplyr ：过滤一系列行（在一列中）

虚拟数据框 id family lt c 1 1 2 2 3 3 people lt c male female male female male children dataset lt data frame id family peopl
如何在 conda 中静音或抑制 gfortran （或 clang？）后端？

我一直致力于构建一个非常特殊的 conda 环境专为python and R与串扰使用rpy2 我想出的方法可以安装正确的R包如下 install main environment sh now date T echo Start Tim

随机推荐

在.NET 中读取/保存 PixelFormat.Format48bppRgb PNG 位图？

我已经能够使用以下 C 代码创建 Format48bppRgb PNG 文件来自一些内部 HDR 数据 Bitmap bmp16 new Bitmap viewer Width viewer Height System Drawing I
如何在 Linux 中从 C 获取当前时间（以毫秒为单位）？

如何获取 Linux 上的当前时间以毫秒为单位这可以通过使用来实现POSIX clock gettime功能在当前版本的 POSIX 中 gettimeofday is 标记为过时这意味着它可能会从规范的未来版本中删除鼓励应用程序
C - 获取用popen打开的进程的PID

我有一个用 C 编写的程序它使用 popen 打开另一个程序我想获取该程序的 pid 或某种处理程序以便在一定时间限制后或者在它超出某些 ram 和 stdout 限制时杀死它我认为这必须用ptrace来完成它需要PID 但我不
x86处理器如何在引导加载程序加载GDT后立即获取指令？

在为 x86 编写的典型简单引导加载程序中我们有以下代码来加载 GDT 并执行远跳转请注意在执行以下代码之前 CS 为 0x0 lgdt gdtdesc movl cr0 eax orl 1 eax movl eax cr0 Jump
一对多关系中外键始终为空 - Spring Boot Data with JPA

我有两个实体类Country and Language具有双向一对多关系下面是实体类 Entity Table name COUNTRY public class Country Id GeneratedValue Column name
有没有办法为 TestNG suite.xml 中包含的方法指定参数？

我正在为基于 TestNG 的自己的测试框架编写 suite xml 我的 xml 文件如下所示
C++ 关键字 auto 有什么作用？ [复制]

这个问题在这里已经有答案了我最近在c 中遇到了关键字auto 在代码中 auto maxIterator std max element spec 0 spec sampleSize float maxVol maxIterator No
Java 构造函数具有比其类更广泛的访问级别

Java规范允许具有默认访问权限的类对其构造函数进行公共访问它的目的是什么因为它不能在其包之外引用我想将此作为评论但由于评论中不允许使用代码标签关于您对 CristopheD 的回答的评论 package bob class My
为什么自定义元素不支持将属性作为对象？

我试图将自定义元素中的数据属性作为对象传递但在接收 AttachedCallback 方法内部时以字符串形式获取值 object object 那么任何人都可以帮助我弄清楚如何将属性作为自定义元素 Web 组件中的对象获取代码示例
如何使用用户脚本加载共享 Web Worker？

我想用用户脚本加载共享工作者问题是用户脚本是免费的并且没有托管文件的商业模式我也不想使用服务器即使是免费的服务器来托管一个小文件不管我尝试过这个我当然得到了同源策略错误 Uncaught SecurityError Fai
释放未初始化的指针是否会导致未定义的行为？

如果您有一个未初始化的指针并且错误地尝试释放它这是否会导致未定义的行为 Like int main void char string free string return 0 释放未初始化的指针是否会导致未定义的行为 Yes 然而释放
加速循环中计算文档类型的 plpgsql？

有没有一种方法可以加快我们的 plpgsql 函数的速度该函数可以在一个循环执行的查询中对某些类型的文档进行计数全部包含在一个查询中 validador select count id doc from webdte doc tip c
Log4j JDBCAppender 记录堆栈跟踪

Using org apache log4j jdbc JDBCAppender 我怎样才能获得记录的stracktracewarn and error进入PatternLayout 我正在记录像 logger warn warning d
根据文本量更改 UITableViewCell 高度

我需要能够调整 UITableView 中单个单元格的高度以便它适合其详细标签中的文本量我玩过以下内容但它对我不起作用如何在没有自定义单元格的情况下将文本换行到 UITableViewCell 中尝试的代码 UITableView
Python - 将两个原始字符串与用户名连接起来[重复]

这个问题在这里已经有答案了我有一个像这样的原始字符串 MasterFile Name r C Users ABC X12345 DEF File Test xlsx 我想通过变量传递 X12345 的值为此我正在做这样的事情我的 I
在 SOAP 请求中使用自定义字段实现 WSSE 安全标头时出现 C# 运行时错误

我正在尝试发送SOAP 请求到使用的网络服务WSSE和 UsernameToken 用于身份验证示例查询如下屏蔽机密数据
创建包含给定期间每月第一天和最后一天的列表

我必须生成一个列表其中包含特定时期内每个月的两列日间隔第一列必须是该月的第一天第二列必须是该月的最后一天 Example 开始日期 2014 01 01结束日期 2014 06 30 结果应该分为两列 1 2014 01 01 201
是否有一种方便的方法从属性树中删除节点，保留其子节点？

我想从 boost 属性树中删除一个节点但我想保留其子节点并将它们连接到已删除节点的父节点即连接到其祖父母节点有没有一种优雅的方法来实现这一目标这可能是移动孙子的最有效方法 std move middle begin middle
如何使用 XIB 制作自定义 MKAnnotationView

我想要一个自定义 MKAnnotationView 我在 IB 中创建了一个 xib 文件并将其类设置为 MyAnnotationView class MyAnnotationView MKAnnotationView override i
根据字典中单词的值检索句子得分

Edited df and dict 我有一个包含句子的数据框 df lt data frame text c I love pandas I hate monkeys pandas pandas pandas monkeys monkey

根据字典中单词的值检索句子得分

根据字典中单词的值检索句子得分 的相关文章

随机推荐

热门标签

根据字典中单词的值检索句子得分的相关文章