R 中带有 tm 包的计数器 ngram

2024-02-25

我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本。该脚本适用于单个单词，而不适用于复合词 es. “富”“酒吧”“富酒吧”

这是代码

require(tm)
my.docs <- c("foo bar word1 word2")
myCorpus <- Corpus(VectorSource(my.docs))
inspect(DocumentTermMatrix(myCorpus,list(dictionary = c("foo","bar","foo bar"))))

但结果是

Terms

Docs bar foo  foo bar

   1   1   1        0

我必须找到一个“foo bar”= 1

我怎样才能解决这个问题？

问题是DocummentTermMatrix(...)默认情况下在分词处进行标记。你至少需要二元组。

归功于这个帖子 https://stackoverflow.com/questions/16836022/findassocs-for-multiple-terms-in-r为基本方法。

library(tm)
library(RWeka)
my.docs <- c("foo bar word1 word2")
myCorpus <- Corpus(VectorSource(my.docs))
myDict   <- c("foo","bar","foo bar")
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 2))
inspect(DocumentTermMatrix(myCorpus, control=list(tokenize=BigramTokenizer,
                                                  dictionary=myDict)))
# <<DocumentTermMatrix (documents: 1, terms: 3)>>
# ...
#     Terms
# Docs bar foo foo bar
#    1   1   1       1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Dictionary

Frequency

textmining

tm

R 中带有 tm 包的计数器 ngram 的相关文章

平滑连续 2D 点

UPDATE 感谢 user20650和李哲源Zheyuan Li 这是我想出的解决方案 Example data set df 3600 observations points Create a vector of the cumula
使用数据帧的 R 中的 EWMA 波动性

我正在尝试从一系列股票每日收益中获取 EWMA 波动性这些收益来自一个名为base retorno diario Data IBOV ABEV3 AEDU3 ALLL3 BBAS3 BBDC3 BBDC4 1 2000 01 04 0 0
如何在Rstudio中快速给几个单词加上引号？

如何将 MI ID FL 转换为 MI ID FL 而无需键入每个双引号 Hmisc 包有一个函数 Cs 它将评估逗号分隔的文本是否带有引号 Cs MI ID FL becomes MI ID FL
R - 基于列名称的子集

我的数据框有超过 120 列变量我想根据列名称创建子集例如我想创建一个子集其中列名称包含字符串心情这可能吗我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
StatET调试工具

我想我只是很密集但我似乎无法弄清楚如何在 Eclipse 中的 R 中使用调试工具 StatET 插件有人有关于这个主题的任何提示或教程吗 StatET 2 00 现在对高级可视化调试提供实验性支持需要 Eclipse 3 6 或
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

我正在尝试使用 Rstudio 从 VBA 打开 R 脚本同时将参数传递给 R 脚本然后我可以使用 commandArgs 访问该脚本该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
如何在R中分离两个图？

每当我运行这段代码时第一个图就会简单地覆盖前一个图 R中有没有办法分开得到两个图 plot pc title main abc xlab xx ylab yy plot pcs title main sdf xlab sdf ylab x
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d
识别包含字符串的行的最快方法[重复]

这个问题在这里已经有答案了我有一个字符串数据框尺寸为 30 列 x 500 万行我想识别包含任何预定义字符串列表的行有没有比下面我的 apply any 方法更快的方法这是一个可重现的示例请注意此示例中的字符串是随机数但在我
ggplot 的每个方面都有不同的 `geom_hline()`

这个问题在这里已经有答案了 library tidyverse ggplot mpg aes cty hwy geom point facet grid year fl geom hline yintercept mean mpg hwy
如何在 R 中 fork 进程

我试图了解 R 多核包实现的分叉系统包的例子是 p lt fork if inherits p masterProcess cat I m a child Sys getpid n exit I was a child cat I m t
Swift 中的字典是否应该转换为类或结构？

我正在开发一个本机 iOS 应用程序该应用程序从我们也可以控制的 Web 服务接收 JSON 格式的数据该计划是在大约 18 个月内更换后端数据库以支持不同的平台考虑到这一点我们希望确保 iOS 应用程序能够相对容易地适应新的数据
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
使用括号表示 y 轴上的负值 ggplot2

我想在括号中显示 y 轴负值而不是用负号例如我想显示 2 000 而不是 2 000 我在 R 中使用 ggplot2 我尝试在scale y continuous内部使用 negative parens TRUE 如下所示但没有成
如何绘制 Voronoi 曲面细分的多边形而不是线段？

我找到了一种使用 ggplot2 绘制 Voronoi 曲面细分的分段的方法 library deldir library ggplot2 library ggthemes set seed 123 df lt data frame lat

随机推荐

JavaScript 跨浏览器：将字符串视为数组是否安全？

这段代码在所有主流浏览器中都安全吗 var string 123 alert string 1 2 should alert true 不这不安全 Internet Explorer 7 不支持按索引访问字符串你必须使用charAt兼容
如何在 swiftui 中添加自定义圆形滑动操作？

在我的 SwiftUI 应用程序中我想在 ListView 中设计圆形滑动操作如以下示例所示天气应用程序 iOS 15 我知道您可以添加这样的自定义操作 List Text Pepperoni pizza swipeActions B
PHP 或 MySQL 中的业务逻辑？

在具有合理流量的网站上如果将应用程序业务逻辑编写为存储过程触发器和视图而不是编写在 PHP 代码本身中这会重要吗牢记可扩展性的最佳方法是什么我无法向您提供统计数据但除非您计划将来将 PHP 更改为另一种语言否则我可以说将业
使用 graph api 2.2 从 android 中的 facebook sdk 4.0.1 获取好友列表

我在进行一些搜索后用于获取列表的代码如下 GraphRequestBatch batch new GraphRequestBatch GraphRequest newMyFriendsRequest accessToken new Grap
pg_dump 忽略表顺序？

我最近一直在玩 PostgreSQL 并且无法理解如何备份和恢复单个表我使用 pgadmin3 备份数据库中的单个表以便将其复制到不同的服务器当我尝试对文件执行 pg restore 时收到错误消息指出该序列不存在 pg rest
XmlHttpRequest.onload 未调用

我正在玩这个XmlHttpRequest事物在一些教程和书籍中它是onload请求完成时调用的函数在我的小实验中这个函数从未被调用这是我的代码 window onload function var url http www goo
渐变剪切似乎在“无”上窒息

我正在尝试向我的图表添加渐变裁剪我使用了这里推荐的方法如何在tensorflow中有效应用梯度裁剪 https stackoverflow com questions 36498127 how to effectively apply
Django 官方教程第 1 部分：运行时错误：cmp 中超出最大递归深度

根据 django 教程我创建了项目并执行了manage py runserver 如教程中所述并且我收到错误 RuntimeError cmp 中超出了最大递归深度有什么办法可以纠正这个问题吗我得到这个错误 Validating
GoLang - 内存分配 - []byte 与 string

在下面的代码中 c fool d byte fool fmt Printf c T d n c unsafe Sizeof c 16 bytes fmt Printf d T d n d unsafe Sizeof d 24 bytes 为
非被动滚动事件处理程序的控制台警告

当我使用 bootstrap vue 中的 Form Select 时出现此控制台错误我正在使用谷歌浏览器违规向滚动阻塞鼠标滚轮事件添加了非被动事件侦听器考虑将事件处理程序标记为被动以使页面响应更快我使用 axios 从
indexpath.row 从 1 而不是 0 开始

我面临着 uitableview 的问题有时当我的表的 datasource numberofrowsinsection 有 3 个值时 cellforowatindexpath 从 0 1 而不是 0 0 开始有人可以帮我找出发生此
在 Swing 中使图像按钮看起来被按下/单击

我创建了一个 JButton 其中有一个图像设置为代表该按钮的图标现在我已经设置了 setContentAreaFilled false setBorderPainted false setOpaque false 这些属性使图像按钮看
多行字符串文字的语法突出显示

我有一种自定义语言我想在 Visual Studio Code 中为其提供语法突出显示在这种语言中字符串文字以双引号或单引号开头和结尾以双引号开头的字符串文字可以包含单引号反之亦然不会发生任何其他引号转义但无论起始引号类型如何
将菜单项添加到 Quickbooks

是否可以使用 QBSDK 将菜单项添加到 Quickbooks 我发现了一些我无法工作的旧例子我已经为我的公司创建了一个自定义应用程序并尝试通过在 Quickbooks 中创建一个菜单项来简化它任何帮助将不胜感激这是我到目前为止所尝
替换嵌套括号中的内容

Input ABCDEF 3 abcdef GHIJKLMN 4 5 Value OPQRSTUVW 4 5 Value 3 预期输出 ABCDEF GHIJKLMN OPQRSTUVW 到目前为止尝试过 Output Input repl
单元测试 - 如何测试仅插入日志消息的“void”方法（Serilog）

我需要测试类型的方法void 它只是使用 LOG 框架在我的 LOG 变量上插入一条消息 Serilog https serilog net 参见实现示例 public class MyClass public MyClass ILogge
如何在cloudfoundry上使用kafka和storm？

我想知道是否可以将 kafka 作为云原生应用程序运行以及我是否可以在 Pivotal Web Services 上创建一个 kafka 集群作为服务我不仅仅想要客户端集成我想运行 kafka 集群服务本身谢谢阿尼尔我可以向您
为什么 Tkinter 中计算的字符串宽度和高度（以像素为单位）在不同平台上有所不同？

我有一个 Python 脚本需要计算以任意字体显示的任意字符串的确切大小以便生成简单的图表我可以使用 Tkinter 轻松做到这一点 import Tkinter as tk import tkFont root tk Tk canv
转发不同类型的事件

我正在尝试将事件从一个类转发到其中包含的对象如下所述在 C 中转发事件 https stackoverflow com questions 1065355 forwarding events in c sharp 然而事件的类型不同
R 中带有 tm 包的计数器 ngram

我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本该脚本适用于单个单词而不适用于复合词 es 富酒吧富酒吧这是代码 require tm my docs lt c foo ba

R 中带有 tm 包的计数器 ngram

R 中带有 tm 包的计数器 ngram 的相关文章

随机推荐

热门标签