如何使用stemCompletion函数（tm包）从字典中完成词干语料库

2024-01-19

我在 R 的 tm 包中遇到问题。我使用的是 0.6.2 版本。以下问题（2个不同的错误）已得到解答here https://stackoverflow.com/questions/24191728/documenttermmatrix-error-on-corpus-argument and here https://stackoverflow.com/questions/24771165/r-project-no-applicable-method-for-meta-applied-to-an-object-of-class-charact但使用发布的解决方案后仍然产生错误。请点击here https://drive.google.com/file/d/0B2YVITpwU9nPTjdDLUV4YXJFSlU/view?usp=sharing下载数据集（仅 93 行）。这是一个可重现的例子。两个错误如下：

（解决）UseMethod("meta", x) 中的错误：没有适用于“元”的适用方法应用于“字符”类的对象
错误：继承（doc，“TextDocument”）不是 TRUE
在这种情况下，tm_map(ds.corpus, PlainTextDocument) 不会创建纯文本文档。继承(ds.cleanCorpus, "TextDocument") # 返回 FALSE

请告诉我我的方法有什么问题。

  # Data import
    df.imp<- read.csv("Phone2_Sample100_NegPos.csv", header = TRUE, as.is = TRUE)

   ##### Data Pre-Processing 

        install.packages("tm")
    require(tm)  

    ds.corpus<- Corpus(VectorSource(df.imp$Content))

    ds.corpus<- tm_map(ds.corpus, content_transformer(tolower))
    ds.corpus<- tm_map(ds.corpus, content_transformer(removePunctuation))
    ds.corpus<- tm_map(ds.corpus, content_transformer(removeNumbers))
    removeURL<- function(x) gsub("http[[:alnum:]]*", "", x)
    ds.corpus<- tm_map(ds.corpus,removeURL)

    stopwords.default<- stopwords("english")
    stopWordsNotDeleted<- c("isn't" ,     "aren't" ,    "wasn't" ,    "weren't"   , "hasn't"    ,
                            "haven't" ,   "hadn't"  ,   "doesn't" ,   "don't"      ,"didn't"    ,
                            "won't"   ,   "wouldn't",   "shan't"  ,   "shouldn't",  "can't"     ,
                            "cannot"    , "couldn't"  , "mustn't", "but","no", "nor", "not", "too", "very")

    stopWord.new<- stopwords.default[! stopwords.default %in% stopWordsNotDeleted] ## new Stopwords list
    ds.corpus<- tm_map(ds.corpus, removeWords, stopWord.new )

    copy<- ds.corpus ## creating a copy to be used as a dictionary

    ds.corpus<- tm_map(ds.corpus, stemDocument)

    ## error Statement #1
    ds.corpus<-  stemCompletion(ds.corpus, dictionary = copy) 
    ## Error in UseMethod("meta", x) : no applicable method for 'meta' applied to an object of class "character"




    ds.cleanCorpus<- tm_map(ds.corpus, PlainTextDocument) ## creating plain text document

    class(ds.cleanCorpus) ## output is VCorpus" "Corpus".  what it should be??

    ## error Statement #2
    tdm<- TermDocumentMatrix(ds.corpus) ## creating  term document matrix 

    inherits(ds.cleanCorpus, "TextDocument") ## returns FALSE

Update:找出第一个错误，即stemCompletion方法的x参数应该是字符向量，而字典可以是语料库或字符向量。但是，当我在 ds.corpus 的第一个文档（字符向量）上尝试时，如下所示，词干词未完成，输出只是像以前一样的词干字符向量。

stemCompletion(ds.corpus[[1]]$content, dictionary = copy)

所以现在我的主要问题是“如何从字典（tm包）完成词干语料库？“stemCompletion 方法似乎不起作用（在字符向量上）。其次，如何完成整个语料库的词干提取，是否应该对语料库内容的每个文档使用 for 循环？

有两件事你需要改变

当您使用自定义函数时，您需要使用 content_transformer

删除 URL

ds.corpus
函数 StemCompletion 的目的是尝试完成词干词https://en.wikipedia.org/wiki/Stemming https://en.wikipedia.org/wiki/Stemming基于字典。词干词需要是字符向量，字典可以是语料库。

x

output:

 compan       entit       suppl

“公司”“”“供应品”

创建文档术语矩阵的代码

# Data import
df.imp<- read.csv("data/Phone2_Sample100_NegPos.csv", header = TRUE, as.is = TRUE)

##### Data Pre-Processing 

#install.packages("tm")
require(tm)  

ds.corpus<- Corpus(VectorSource(df.imp$Content))

ds.corpus<- tm_map(ds.corpus, content_transformer(tolower))
ds.corpus<- tm_map(ds.corpus, content_transformer(removePunctuation))
ds.corpus<- tm_map(ds.corpus, content_transformer(removeNumbers))
removeURL<- function(x) gsub("http[[:alnum:]]*", "", x)
ds.corpus<- tm_map(ds.corpus,content_transformer(removeURL))


stopwords.default<- stopwords("english")
stopWordsNotDeleted<- c("isn't" ,     "aren't" ,    "wasn't" ,    "weren't"   , "hasn't"    ,
                        "haven't" ,   "hadn't"  ,   "doesn't" ,   "don't"      ,"didn't"    ,
                        "won't"   ,   "wouldn't",   "shan't"  ,   "shouldn't",  "can't"     ,
                        "cannot"    , "couldn't"  , "mustn't", "but","no", "nor", "not", "too", "very")

stopWord.new<- stopwords.default[! stopwords.default %in% stopWordsNotDeleted] ## new Stopwords list
ds.corpus<- tm_map(ds.corpus, removeWords, stopWord.new )

tdm<- TermDocumentMatrix(ds.corpus)

完成词干词的示例

copy<- ds.corpus ## creating a copy to be used as a dictionary
x <- c("compan", "entit", "suppl")
stemCompletion(x, copy)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

如何使用stemCompletion函数（tm包）从字典中完成词干语料库的相关文章

DT数据表中的列对齐

In my shiny我正在使用的应用程序datatable函数来自DT库构建一个表格并希望将列居中对齐我可以用formatStyle column textAlign center 但它只影响列体而不影响标题我们必须设置columnD
闪亮的点击/画笔不适用于非笛卡尔坐标？

我正在开发一个闪亮的应用程序它应该让用户在由 ggplot2 生成的世界地图上选择地理数据点如这个例子 http shiny rstudio com gallery plot interaction selecting points h
将分类变量重新编码为二进制 (0/1)

有人可以帮助我使用ifelse 我有一个data frame dat 具有称为 Q1 的分类变量因子 dat Q1 dat Q1编码为 1 2 3 或 4 我需要创建一个新列data new1基于以下规则 if dat Q1 3 then
在 ggplot2 上绘制世界地图

我一直在尝试在 ggplot2 上绘制世界地图我跟踪了电子邮件的线索带 l 的 ggplot 地图 https stackoverflow com questions 9558040 ggplot map with l但我确实遇到了同样
R 中的线性模型 - 乘法表达式

我有 3 个数值变量A B and C 我正在尝试创建一个能够预测的线性模型A 我使用的表达式是B C为了预测A 然而当查看输出时我无法得到我的方程因为我得到了额外的变量但我不知道它是什么这是我的代码 MyData lt read
基于列名称的字符向量的子数据框[重复]

这个问题在这里已经有答案了菜鸟问题提前感谢您的耐心我有一个数据框 vals lt c 1 1 1 1 testdf lt data frame var1 vals var2 vals var3 vals 我有一个变量名称的字符向量 v
超过阈值的时间序列值的聚合计数（按年月）

我现在正在学习 R 并使用 SEAS 包来帮助我在 R 中进行一些计算并且数据与 SEAS 包喜欢的格式相同这是一个时间序列 require seas data mscdata dat int lt mksub mscdata id 1
如何更新 R 中的包？

我想将一个 R 包升级到已经可用的新版本我试过 update packages c R2jags 但它什么也没做控制台上没有输出没有错误什么也没有我使用了相同的语法install packages但也许我做错了什么我一直在看 u
在r中拆分数据并将所有拆分文件保存在csv中

我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
从每小时中提取/子集分钟值

我的数据框包含以下格式的日期值YYYY MM DD HH MM SS跨越 125000 多行按分钟细分每行代表一分钟 1 2018 01 01 00 04 00 2 2018 01 01 00 05 00 3 2018 01 01 00
r：按多列分组并计数

我有以下数据框 df LeftOrRight SpeedCategory NumThruLanes R 25to45 3 L 45to62 2 R Gt62 1 我想按速度类别对其进行分组并循环遍历其他列以获取每个速度类别中每个唯一代码的
dplyr：带引号变量名的 mutate 的标准评估

我将如何使用mutate 我的假设是我正在寻找标准评价就我而言因此mutate 但我对此并不完全有信心当使用接受变量名列表的函数时如下所示 createSum function data variableNames data gt m
关于子组的新列和另一列中的百分比范围

我有一个如下所示的示例 df df test lt data frame Group Name c Group1 Group2 Group1 Group2 Group2 Group2 Group1 Sub group name c A A
ggsubplot 是否适用于 R 3.2.1+？

CRAN 提供的 ggsubplot 版本与 R 的最新版本例如 3 1 1 不兼容运行 ggsubplot 示例会返回以下错误 Error in layout base data vars drop drop At least one
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
更新两组单选按钮 - 闪亮

我问了这个问题反应式更新两组单选按钮闪亮 https stackoverflow com questions 35040579 update two sets of radiobuttons reactively shiny 昨天但也
在防风草模型上使用 VIP 包计算重要性度量

我正在尝试使用 vi firm 在防风草中制作的逻辑回归模型上计算特征重要性对于正则表达式我将使用 iris 数据集并尝试预测观察结果是否为 setosa iris1 lt iris gt mutate class case when
R：（中缀）运算符的两个定义之间的冲突：如何指定包？

在 R 中每当两个包定义相同的函数时很容易指定要使用哪个包pkg foo 但是当冲突的功能是一个时你该怎么办 infix运算符即使用定义举个例子两者ggplot2 and crayon define 有没有一种方法可以让我默认
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
跨类别和列自动化卡方

我有一个调查数据框其中包含几个问题列编码为 1 同意 0 不同意受访者行根据年龄年轻中年老年地区东中西等指标进行分类大约有30个类别总共 3个年龄 3个地区 2个性别 11个职业等在每个指标中类别不重叠且

随机推荐

在 AWS Beanstalk 或 EC2 实例中设置 Django 并支持 GeoDjango

因此我曾一度使用 Amazon Instance 2013 09 ami 35792c5c 通过 Beanstalk 进行此操作当时将此 ebextension 脚本放置在 ebextensions 中的存储库根目录中时效果非常好 0
如何为 JavaScript Set 自定义对象相等性

新ES 6 Harmony 推出新Set https developer mozilla org en US docs Web JavaScript Reference Global Objects Set目的 Set 使用的恒等算法类似于
有用的替代控制结构？

有时当我编程时我发现某些特定的控制结构对我非常有用但在我的编程语言中不能直接使用我认为我最常见的愿望是短暂的一段时间我不知道实际上该怎么称呼它 foo split while condition bar 这段代码的语义是foo
将初始化数据传递给 Angular 2

有谁知道如何将初始化数据传递到使用 Angular CLI 构建的 Angular 2 应用程序中我需要传递当前从预先验证的 NET 后端获得的访问令牌以便我可以调用 API 我尝试通过本地 Web api 端点执行此操作但由于 Ob
如何使用 package.json 脚本复制具有特定文件扩展名的文件

我正在尝试将 npm 作为构建工具我遇到的一个障碍是我需要将 javascript 文件从一个文件夹复制到另一个文件夹源文件夹包含打字稿文件 javascript 文件和地图文件但在目标文件夹中我只对 javascript 文件感兴趣
如何使用反射调用 Scala 对象方法？

说我有以下内容 trait SomeTrait def someMethod String object SomeObject extends SomeTrait def someMethod something 我想使用反射调用 som
初始化列表上的 ArgumentOutOfRangeException

它在 For 循环中间抛出 ArgumentOutOfRangeException 请注意我删除了 for 循环的其余部分 for int i 0 i lt CurrentUser Course ID Count 1 i CurrentUs
当 mongodb 的好处应该是无模式时，为什么 mongoose 使用模式？

我是 mongodb 的超级新手我正在使用 mongoose 从 node js 访问 mongodb 并且知道如何让事情正常工作但我认为我不明白为什么它会这样工作最重要的是我不明白为什么 mongoose 有模式而 mongo
Android Studio Mediastore.Audio.Media.DATA 已弃用，有替代方案吗？

我正在尝试访问外部存储上的 mp3 文件并且我正在使用 mediastore 来检索它然而 android studio 似乎指出通过 mediastore audio media DATA 获取它已被弃用这是我的代码 val med
在javascript中用多个分隔符分割方程字符串并保留分隔符，然后将字符串重新组合在一起

我有一个方程我想使用运算符来拆分作为分隔符然后我想改变一项并将方程重新组合起来例如一个方程可以是 s 5 3 8 somevariablename 6 我想我可以使用正则表达式来分解方程 re g var elements s s
如何在基于 MFC 对话框的应用程序中使用 CTabCtrl？

我需要做一些我期望很简单的事情创建一个有 2 个选项卡的选项卡控件这意味着我的应用程序有 2 种操作模式当用户单击 Tab1 时他会看到一些按钮和文本框当他单击 Tab2 时他会看到一些其他输入法我注意到 MFC 中有一个 C
替换以 # 开头然后是整个单词的占位符

我需要替换文本中以井号开头的单词好吧我知道如何替换整个单词 preg replace b variable b value text 因为 b 修饰符只接受单词字符所以包含哈希标记的单词不会被替换我有这个 html 其中包含 co
获取短日名称

我想知道如何编写一个方法该方法将返回一个包含短日名称的字符串例如 public static string GetShortDayName DayOfWeek day 现在如果我打电话 string monday GetShortDay
MySql 重新启动后：#1452 - 无法添加或更新子行：外键约束失败

MySql 重新启动后当我尝试更新或插入行时出现此错误 1452 无法添加或更新子行外键约束失败奇怪的是当我使用 phpMyAdmin 再次删除并添加键约束时问题就消失了另外我只在 MAMP 上遇到这个问题在 WAMP 上
从 Java 中的 Json 字符串中删除重复项？

我有一个包含重复值的 Json 字符串 String json Sign In Type Action Sign In Type Action 当我尝试创建 JSONObject 时它会正确抛出异常 try JSONObject json
如何在 IntelliJ 中保存打开的选项卡组？

如何在 IntelliJ 中保存一组打开的选项卡以便我可以在 Git 分支之间切换并为每个分支调出一组工作文件谢谢您可以保存上下文其中包括一组打开的选项卡以及一些其他信息例如活动的运行配置使用Tools Tasks Contex
正则表达式如果捕获组匹配字符串

我需要构建一个简单的脚本来连接罗马尼亚语单词我见过几个他们没有正确执行规则 var words arta codru 规则如果 2 个辅音位于 2 个元音之间则它们会在音节之间分开除非它们属于此数组在这种情况下两个辅音都会移动
了解 Ubuntu 中不同对象的相同 inode 编号

为什么 cdrom 的 inode 号与 cdrom 的 inode 号相同 sys devices platform power在Ubuntu中以下在我的 Ubuntu 中具有相同的 inode 编号 media BACKUP 1 MI
WPF - Graphics.CopyFromScreen 返回黑色图像

以下方法取自 WinForms 应用程序它只是捕获屏幕但我需要修改它才能在 WPF 应用程序中工作当我使用它时它返回黑色图像尺寸正确我没有任何打开的 DirectX 或视频甚至在我的桌面上也无法工作 public static
如何使用stemCompletion函数（tm包）从字典中完成词干语料库

我在 R 的 tm 包中遇到问题我使用的是 0 6 2 版本以下问题 2个不同的错误已得到解答here https stackoverflow com questions 24191728 documenttermmatrix err

如何使用stemCompletion函数（tm包）从字典中完成词干语料库

完成词干词的示例

如何使用stemCompletion函数（tm包）从字典中完成词干语料库 的相关文章

随机推荐

热门标签

如何使用stemCompletion函数（tm包）从字典中完成词干语料库的相关文章