使用 RWeka 2-gram 和 3-gram 而不是 1-gram

2024-01-20

我正在尝试使用 RWeka NGramTokenizer 函数从训练语料库中提取 1-gram、2-gram 和 3-gram。不幸的是，只得到1克。有我的代码：

train_corpus
# clean-up
cleanset1<- tm_map(train_corpus, tolower)
cleanset2<- tm_map(cleanset1, removeNumbers)
cleanset3<- tm_map(cleanset2, removeWords, stopwords("english"))
cleanset4<- tm_map(cleanset3, removePunctuation)
cleanset5<- tm_map(cleanset4, stemDocument, language="english")
cleanset6<- tm_map(cleanset5, stripWhitespace)

# 1-gram
NgramTokenizer1 <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 1))
train_dtm_tf_1g <- DocumentTermMatrix(cleanset6, control=list(tokenize=NgramTokenizer1))
dim(train_dtm_tf_1g)
[1]  5905 15322

# 2-gram
NgramTokenizer2 <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
train_dtm_tf_2g <- DocumentTermMatrix(cleanset6, control=list(tokenize=NgramTokenizer2))
dim(train_dtm_tf_2g)
[1]  5905 15322

# 3-gram
NgramTokenizer3 <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
train_dtm_tf_3g <- DocumentTermMatrix(cleanset6, control=list(tokenize=NgramTokenizer3))
dim(train_dtm_tf_3g)
[1]  5905 15322

每次都得到相同的结果，这显然是错误的。

# combining together 1-gram, 2-gram and 3-gram from corpus 
    NgramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 3))
train_dtm_tf_ng <- DocumentTermMatrix(cleanset6, control=list(tokenize=NgramTokenizer))
dim(train_dtm_tf_ng)
[1]  5905 15322

# A numeric for the maximal allowed sparsity in the range from bigger zero to smaller one
train_rmspa_m_tf_ng_95<-removeSparseTerms(train_dtm_tf_ng, 0.95)
    [1] 5905  172

# creat bag of words (BOW) vector of these terms for use later
train_BOW_3g_95 <- findFreqTerms(train_rmspa_m_tf_3g_95)

# take a look at the terms that appear in the last 5% of the instances
train_BOW_3g_95

  [1] "avg"        "februari"   "januari"    "level"      "nation"     "per"        "price"     
  [8] "rate"       "report"     "reserv"     "reuter"     "also"       "board"      "export"    
  [15] "march"      "may"        "month"      "oil"        "product"    "total"      "annual"    
  [22] "approv"     "april"      "capit"      "common"     "compani"    "five"       "inc"       
  [29] "increas"    "meet"       "mln"        "record"     "said"       "share"      "sharehold" 
  [36] "stock"      "acquir"     "addit"      "buy"        "chang"      "complet"    "continu" 

     ...

仅 1 克。我尝试按以下方式重写我的命令：

NgramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 3))

但没有成功。还尝试添加另一行：

options(mc.cores=1)

在 NgramTokenizer 命令之前，但没有变化。有什么帮助吗？

我今天遇到了同样的问题。由于某些原因，“tm_map”似乎不能很好地与 SimpleCorpus 配合使用。

我改变了我的代码

corpus = Corpus(VectorSource(pd_cmnt$QRating_Explaination))

corpus = VCorpus(VectorSource(pd_cmnt$QRating_Explaination))

现在它可以正常工作并返回 2 克。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

NGram

rweka

使用 RWeka 2-gram 和 3-gram 而不是 1-gram 的相关文章

如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
将列表中的每个元素转换为数据框中的一列

假设我有以下列表 d library combinat d permn c a b c 这看起来如下 1 1 a b c 2 1 a c b 3 1 c a b 4 1 c b a 5 1 b c a 6 1 b a c 是否可以将此列表的
`as.matrix` 和 `as.data.frame` S3 方法与 S4 方法

我注意到定义as matrix or as data frame作为 S4 类的 S3 方法使例如lm formula objS4 and prcomp object 开箱即用如果它们被定义为 S4 方法则这不起作用为什么将方法定义
行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
R ggplot 中的柯尔莫哥洛夫-斯米尔诺夫图

我正在尝试在 r 中绘制 KS 图一切似乎都很顺利除了我只能使用颜色来可视化两个不同的样本而不是线型这一事实我已经尝试过以下方法 sample1 lt SD13009 sample2 lt SD13009PB group lt c r
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
在r中的某个阈值处破坏 cumsum() 函数

例如我有以下代码 cumsum 1 100 我想打破它如果一个元素 i 1 大于3000 我怎样才能做到这一点因此而不是这个结果 1 1 3 6 10 15 21 28 36 45 55 66 78 91 105 120 136 15
R，使用具有两种以上可能性的二项式分布

我知道这可能是基本的但我似乎有一个心理障碍假设您想要计算在一个骰子上掷出 4 5 或 6 的概率在 R 中这很简单 sum 1 6 1 6 1 6 这给出了 1 2 这是正确答案然而我内心深处可能应该保留的地方认为我应该能够
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
R Shinydashboard 自定义 CSS 到 valueBox

我一直在尝试将 valueBox 的颜色更改为自定义颜色超出 validColors 中可用的颜色但一直无法这样做我知道有一种方法可以使用标签来包含自定义 CSS 但是我无法将它们放在正确的位置 ui lt dashboardPage
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso
R：如何将字符/数字转为1，NA转为0？

有没有一种简单的方法可以将列的字符数字变为 1 将 NA 变为 0 这里有一些示例数据我想将其应用于 3 4 structure list Item Code c 176L 187L 191L 201L 217L 220L Item x
如何在Rstudio中快速给几个单词加上引号？

如何将 MI ID FL 转换为 MI ID FL 而无需键入每个双引号 Hmisc 包有一个函数 Cs 它将评估逗号分隔的文本是否带有引号 Cs MI ID FL becomes MI ID FL
如何将旋转的 NetCDF 转换回正常的纬度/经度网格？

我有一个带有旋转坐标的 NetCDF 文件我需要将其转换为正常的纬度经度坐标经度为 180到180 纬度为 90到90 library ncdf4 nc open dat nf 对于尺寸它显示 1 5 variables exclu
在 R 上安装 TDA 包时出错：目标“diag.o”的配方失败

使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息它似乎与制作 CGAL diag cpp 和或 diag o 最后的完整错误打印输出有关我仔细看了这个在 R 上安装 TDA 包时出错 htt
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT

随机推荐

是否可以设置 html5 音频标签的样式？

我还没有找到任何关于如何做到这一点的资源像改变播放器颜色这样简单的事情就很好了是的您可以隐藏内置浏览器 UI 通过删除controls属性来自audio 而是构建您自己的界面并使用 Javascript 控制播放 source htt
Angular 如何根据路线更改导航菜单标题

我正在使用 Angular 4 在当前项目中开发仪表板布局当用户在应用程序的不同部分之间导航时我需要更新导航菜单标题标题以反映应用程序的当前部分例如当用户访问设置时页面标题应更改为设置该项目基于 net core 2 Ang
突变残基和位置的数字编码

我正在编写一个 python 程序它必须计算突变残基和位置的数字编码一组字符串这些字符串是蛋白质序列这些序列存储在 fasta 格式文件中每个蛋白质序列用逗号分隔不同蛋白质的序列长度可能不同在此我试图找到以下位置和序列变异了
wordpress 在functions.php第5行中的非对象上调用成员函数add_section()

嘿我对 php 和 WordPress 开发有点陌生我只是在尝试 WordPress 的工作原理以及主题的工作原理现在我已经尝试多次查找此内容但没有帮助总是有一些不同的东西对那些人有用的东西对我不起作用这是代码
Android Compose 创建摇动动画

我正在尝试在 Jetpack Compose 中制作形状的晃动动画我想在用户输入无效的 Pin 码时使用此动画来显示错误但我能找到的只是滑入滑出动画和一些缩放动画我有什么想法可以做到这一点吗 Update 在 Thracian 回答
混合 Threepenny-Gui 和 StateT

我有一个关于 Threepenny Gui 与 StateT 交互的问题考虑这个玩具程序每次单击按钮时都会在列表中添加一个 Hi 项目 import Control Monad import Control Monad State i
如何在 Azure 移动应用程序中实现自定义身份验证

在Azure Mobile Apps的最新更新中终于添加了对自定义身份验证的支持参考 https azure microsoft com en us blog azure mobile apps november 2015 update
Socialauth - 您可以在重定向中使用相同的会话吗？

我正在尝试使用社会认证 http code google com p socialauth wiki GettingStarted 使用 google facebook 等登录我假设这里是 google 并询问其工作原理我使用的是没有
如何防止 Swagger-ui 中的 xml-wrapper 元素

我使用的是 swagger ui 版本 2 2 8 我们现有的 API 可以生成 application json 以及 application xml 对于 json 中的单个记录结果它会生成 person id 23 name Joh
如何在 Hadoop 中序列化 Java 对象？

对象应该实现Writable接口以便在 Hadoop 中传输时序列化采取卢森ScoreDoc以类为例 public class ScoreDoc implements java io Serializable The score of t
如何检查特定类型字符的 UITextField 值，例如字母还是数字？

我想要做的是如果文本字段中包含除字母数字破折号和空格之外的任何内容则将下面的 if 语句中的一些布尔值设置为 true 然后对于电子邮件字段检查是否有有效的电子邮件这就是我检查长度的方式 if countElements text
vb6 ADODB 连接字符串到 sql server 2008

我最近将数据库从 sql server 2005 迁移到 windows server 2008 上的 2008 客户端从 XP 计算机连接得很好 SQL Management Studio 2008 也是如此我还使用 LINQPad 测
在 Android 上共享音频输入

我正在为 Android 手机应用程序做一些准备研究该应用程序将涉及用户同时拨打电话时的语音搜索或语音识别我发现当我正在通话并尝试调用语音搜索或类似的操作从麦克风获取输入时我会收到音频错误消息手机应用程序是否对手机的麦克风输
我应该在抽象方法的主体中放置什么？

假设我有以下抽象类Foo import abc class Foo abc ABC abc abstractmethod def bar self raise NotImplementedError 我应该在主体中放入什么bar方法我看到
如何判断该帐户是否是Google Apps帐户？

我正在使用 net V3 dll 版本 2 0 1 0 的 Google 文档列表 api 我正在使用此链接中所述的客户端登录身份验证https developers google com google apps documents lis
iPhone 推送通知自定义声音，静音模式下没有振动？

因此我的推送通知可以通过自定义声音在我的应用程序中正常工作然而当我的iPhone处于静音模式时我发送带有自定义声音的推送通知时声音明显不播放但也没有振动如果我发送带有 sound chime 或类似不存在的内容的推送通知 iP
如何实现动态@ConfigurationProperties前缀

我需要将动态环境名称作为配置属性的前缀传递我将从命令行将环境作为 VM 参数传递并且应为该环境加载所有属性我的配置 Configuration EnableConfigurationProperties PropertySource
如何使用正则表达式提取PHP中的文本[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我的文字 12a49803 713c 4204 a8e6 248e554a352d Content Type text plain c
MaterialDatePicker 不适用于 Android

我想将项目的日期选择器更改为 Android 的 Material Components 提供的日期选择器但它不起作用这是我尝试过的代码 MaterialDatePicker Builder
使用 RWeka 2-gram 和 3-gram 而不是 1-gram

我正在尝试使用 RWeka NGramTokenizer 函数从训练语料库中提取 1 gram 2 gram 和 3 gram 不幸的是只得到1克有我的代码 train corpus clean up cleanset1 lt tm m

使用 RWeka 2-gram 和 3-gram 而不是 1-gram

使用 RWeka 2-gram 和 3-gram 而不是 1-gram 的相关文章

随机推荐

热门标签