使用 R TM 包查找 2 和 3 个单词短语

2024-03-29

我正在尝试找到一个代码，该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语（也许还有另一个我不知道的包）。我一直在尝试使用标记器，但似乎没有运气。

如果您过去处理过类似的情况，您可以发布经过测试且实际有效的代码吗？太感谢了！

您可以将自定义标记化函数传递给tm's DocumentTermMatrix功能，所以如果你有包tau安装起来相当简单。

library(tm); library(tau);

tokenize_ngrams <- function(x, n=3) return(rownames(as.data.frame(unclass(textcnt(x,method="string",n=n)))))

texts <- c("This is the first document.", "This is the second file.", "This is the third text.")
corpus <- Corpus(VectorSource(texts))
matrix <- DocumentTermMatrix(corpus,control=list(tokenize=tokenize_ngrams))

Where n in the tokenize_ngrams函数是每个短语的单词数。此功能也在包中实现RTextTools，这进一步简化了事情。

library(RTextTools)
texts <- c("This is the first document.", "This is the second file.", "This is the third text.")
matrix <- create_matrix(texts,ngramLength=3)

这会返回一个类DocumentTermMatrix与包装一起使用tm.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

datamining

textmining

使用 R TM 包查找 2 和 3 个单词短语的相关文章

如何将环境变量传递给shinyapps

我想将安全参数传递给shinyapps io部署以便我的应用程序可以通过以下方式获取它们 Sys getenv PASSWORD X 我找不到任何相关内容deployApp函数在rsconnect包裹您可以使用Renviron网站 or
如何在折线图中显示 Sep-12 格式的数据并抑制网格线和灰色背景？

我正在努力使日期格式正确数据已经是melt 格式数据中有四个变量碰巧共享相同的数据我只是想绘制一个简单的四线折线图每个变量作为一条单独的线并将 Sep 12 显示为最新数据点我正在使用旧的 ggplot 请随意我有两个问题第
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
在R闪亮中，如何在UI端使用在SERVER端计算的值？

在我的 R闪亮应用程序中我想调整我的高度d3heatmap 见包装d3热图 https cran r project org web packages d3heatmap index html 作为我的数据框行数的函数有一个论点heig
在 R 中捕获段错误

我得到了caught segfault每次我尝试从以下位置运行任何绘图函数时都会出错ggplot2包 1 0 0 我已经尝试过这个qplot geom dotplot geom histogram等来自包的数据例如diamonds or
R 未获取用户库

我有一个带 R 3 6 0 的 Fedora 30 系统用户库设置在Renviron就像这个 R LIBS USER R LIBS USER R x86 64 redhat linux gnu library 3 6 事实上它出现在交互
R中一张图中的多个条形图

我是 R 初学者我需要创建一个像这样的图表 https i stack imgur com az56z jpg https i stack imgur com az56z jpg 我不知道如何生成整个数据集基本思想是某个外显子 ID 会
读取多个 CSV 文件，并在文件开头跳过不同行数

我必须阅读大约 300 个单独的 CSV 我已经成功使用循环和结构化 CSV 名称来自动化该过程然而每个 CSV 在开头都有 14 17 行垃圾并且随机变化因此在 read table 命令中硬编码 skip 参数将不起作用每个
R：构建二阶转移矩阵和得分序列

其他问题有另一个问题 https stackoverflow com questions 29728436 fit and evaluate a second order transition matrix markov process
矩阵中两个字符串的最大 nchar

我想找到更好的方法来找到我正在相互比较的两个字符串的更大的 nchar 假设我有字符串句子匹配data frame 和我需要创建一个 max nchar string1 nchar string2 矩阵但没有 for 循环这是非常慢的方
不理解..密度的行为

在下面的数据框中我预计密度的 y 轴值为 0 6 和 0 4 但它们是 1 0 我觉得我使用的方式显然缺少一些非常基本的东西密度但是我的大脑冻结了我将如何使用密度获得所需的行为任何帮助将不胜感激 df lt data fram
根据条件计算平均值

下面是我的数据框 Row ID A B 1 0 0 2 0 0 3 0 0 4 0 1 5 0 1 6 0 1 7 62 75 0 8 100 0 9 100 0 10 100 1 11 100 1 12 100 1 13 100 1 14
如何导入 .tsv 文件

我需要读取一个表 tsvR 中的文件 test lt read table file drug info tsv Error in scan file what nmax sep dec quote skip nlines na strin
如何使用 ggplot2 绘制 NA 间隙

在 R 的基本绘图中如果数据系列 ggplot2 中存在 NA 则会绘制间隙举个例子看看 df data frame x c 1 10 y c 1 10 df 5 7 NA plot df type l 但是 ggplot2 删除了缺失
Mac OS X 10.13 上的 RStudio 在尝试使用 fix() 时出现 X11 不可用错误

我已经使用自制程序在我的计算机上安装了 XQuartz 然后重新启动了我的计算机当我尝试在 RStudio 中使用 fix 命令时出现以下错误 gt College read csv College csv header T na st
为 Linux 安装 R 包时出错

我试图在 R 3 3 上安装一个名为 rgeos 的包但是当我输入 install packages rgeos 但它返回给我以下错误其他包也会发生同样的情况但不是所有包 gt installing source package rg
R：install.packages 中出现错误：无法打开连接

我试图安装 RINDSEL 包但无法安装它并且不断收到以下错误 install packages 中出错无法打开连接我从以下位置下载了该软件包 rindsel 1 0 2 zip 综合养殖平台 http old ibpdev net
为“facet_wrap”中的每列创建边框和标题

我想在每个方面周围放置带有标签和标题的黑色边框facet wrap 与此类似的东西样本数据 library tidyverse mtcars gt mutate gear factor gear levels c 4 3 5 gt ggp
R data.table fread 使用不带标题的命名 colClasses（例如没有 col.names？）

更新 2016 年 6 月 col names 已添加到 data table 1 9 6 所以问题已经结束每个人都非常高兴我想我现在可以将所有 read csv 调用转换为 fread 调用而不必担心破坏原问题使用数据表1 9

随机推荐

为什么模式匹配一个单词而有两个相同的单词？

请看一下这个如你所见只有one匹配于regex101 但浏览器匹配two相同的单词所以为什么regex101无法匹配第二个单词无论如何我需要匹配这两个词或更多如果存在的话注意到它与以下内容无关g旗帜因为我在小提琴中使用过它
CreateProcessAsUser 和 LogonUser 无密码

使用 WTSGetActiveConsoleSessionId 和 WTSQueryUserToken 我知道作为 SYSTEM 运行的服务可以在当前桌面上启动应用程序 http blog dcuktec com 2009 05 pytho
防止 Azure B2C 自定义策略中的电子邮件更改

有没有办法防止密码重置期间更改电子邮件有密码恢复的标准政策但我不喜欢在那里更改电子邮件该电子邮件用作与其他应用程序集成的 ID 密码重置期间更改电子邮件不会更改用户的实际电子邮件如果用户验证电子邮件但随后意识到这不是他们想要重置密码
python 使用 numpy 进行位移

我正在使用 64 位无符号整数并在位移后比较该值然后再解码其余位值我正在迭代数百万个值并尝试最大程度地减少处理时间问题是 uint64 和 numpy uint64 都不支持位移位我试图避免使用 int64 以避免负值示例数据
PHP HTML 净化器和 MathML

有没有什么简单的方法可以允许所有 MathML 标签在 HTML Purifier 中具有属性我试图将所有 MathML 标签从https developer mozilla org en US docs Web MathML Eleme
是否有实体框架 7 数据库优先 POCO 生成器？

我一直在为我正在开发的一个新项目使用 Entity Framework 7 和 ASP NET 5 但遇到了障碍我所在的团队使用 DBA 优先的开发方法即数据库由 DBA 设计然后开发人员更改代码以补偿模型更改使用 EF6 效果很好
如何使图像高度适合并置文本高度

我有一个图像和一个并排的文本图像在左边文本在右边关于如何根据文本段落高度以及宽度与高度保持比例调整图像高度的任何想法而不是将文本环绕在图像周围这是我所能做到的 div style display table width 100
Flask jsonify 支持 UTF-8 吗？

我一直在使用 Flasks 和 jsonify 进行实验有用但不支持 utf 8 字符土耳其字符我正在使用字典 if api key in key list quotes ataturk Hayatta En Hakiki Murs
如何在启动时完全停止 Android Studio 索引/扫描/构建？

我怎样才能停止这个索引或任何这个启动过程它是做什么用的它为什么这么做我可以在以后最需要的时候推迟加载这么大的进程吗我通过无效并重新启动解决了这个问题我在循环中遇到了这个问题在没有运行或构建任何东西的情况下不停地索引文件 gt
ModelAttribute 可以是原始的吗？

我在 Spring MVC 3 0 中的 ModelAttribute 上遇到了一个奇怪的问题当我在本地主机部署应用程序时它工作正常但是当我在远程服务器上部署该应用程序时每次用户访问特定操作时它都会失败并出现错误 ERROR my
互斥的powershell参数

SCENARIO 我正在使用 Visual Studio 2008 和 NET 3 5 为 Powershell 2 0 编写 cmdlet 该 cmdlet 需要 3 个参数我想要的 cmdlet 语法是这样的 cmdletname f
Apache2中可以有两个密码文件吗？

我可以在 apache2 sites enabled 000 default 配置文件中包含两个 AuthUserFile 指令吗
Google App Engine“搜索”的测试床存根

我正在尝试使用开发应用程序服务器在 Python 中测试 Google App Engine 的新全文搜索功能是否有存根search https developers google com appengine docs python se
Spark：“无法使用 UnspecifiedFrame。这应该在分析过程中进行转换。请提交错误报告”

Spark 2 3 0 与 Scala 2 11 我正在尝试编写一个自定义聚合器并在每个窗口函数上运行它这些文档 https spark apache org docs latest sql programming guide html t
Google Guava 供应商示例

请用合适的例子解释Supplier in Guava 接口的使用 The Supplier接口只是一个返回值的无参数函数的抽象它是一个获取对象的某个或多个实例的方法因为它很通用所以可以用来做很多事情贾里德解释了如何Multimaps
如何设置 Heroku Postgresql 的日志记录级别？

将 Heroku 与 Postgresql 插件结合使用在查看我的日志后似乎 postgresql 正在记录每个单个事务我知道您可以通过执行类似的操作来设置日志级别 https www postgresql org docs 9
字体和颜色 - #region

是否可以更改 region 和 endregion 的字体颜色我在以下位置找不到这个元素extras options fonts and colors 它在这里 TOOLS gt Options gt Environment gt Fon
csv-parse 解析的对象的第一个属性不可访问

我正在使用以下内容解析 csv 文件csv 解析 https csv js org parse userID sysID 20 50 30 71 但是在返回的对象上无法访问从第一列创建的属性userID 这是我的代码 async fun
改造：将对象列表反序列化为不同类型

开发 Android 应用程序我正在使用改造来得到我的回应目前我已经制作了一个 POJO 模型类其中包含所有类型的字段实际上它们有更多的字段和自己的方法所以我在这里简化了它们很多代码来自Client class OkHttpCl
使用 R TM 包查找 2 和 3 个单词短语

我正在尝试找到一个代码该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语也许还有另一个我不知道的包我一直在尝试使用标记器但似乎没有运气如果您过去处理过类似的情况您可以发布经过测试且实际有效的代码吗太感谢了您可

使用 R TM 包查找 2 和 3 个单词短语

使用 R TM 包查找 2 和 3 个单词短语 的相关文章

随机推荐

热门标签

使用 R TM 包查找 2 和 3 个单词短语的相关文章