tm

如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix

我有一个巨大的语料库我只对我预先知道的少数术语的出现感兴趣有没有办法使用以下方法从语料库创建术语文档矩阵tm包其中只使用和包含我预先指定的术语我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化但由于内存大

r tm corpus termdocumentmatrix

我正在尝试安装 0 6 2 版本的 tm 库我已经从以下位置下载了 tar gz 文件archive并在 RStudio 中选择工具 gt 存档 gt 打包存档文件来安装它但是我收到以下错误有人可以帮我解决这个问题吗安装sou

r gcc RStudio tm

我有 MS Word 文档的混合文件类型集合有些文件是 doc 有些是 docx 我正在学习使用tm我或多或少成功创建了一个由 doc 文件组成的语料库 ex eng lt Corpus DirSource R expertise c

r docx tm

我有一个由推文只是消息文本组成的向量我正在清理它以进行文本挖掘我用过removePunctuation来自tm像这样的包 clean tweet text removePunctuation tweet text 这产生了一个从文本

r textmining tm

我正在从数据帧创建 Copus 我将其作为VectorSource因为我只想将一列用作文本源这可以找到但是我需要语料库中的文档 ID 来匹配数据帧中的文档 ID 文档 ID 存储在原始数据框中的单独列中 df lt as data fr

r tm

我有一个包含字符串的数据框我想从中删除停用词我试图避免使用tm打包因为它是一个大数据集并且tm似乎跑得有点慢我正在使用tm stopword字典 library plyr library tm stopWords lt stopwo

r NLP subset tm stopwords

我有以下两个 DTM dtm lt DocumentTermMatrix t dtmImproved lt DocumentTermMatrix t control list minWordLength 4 minDocFreq 5 当我实

r matrix Controls tm

在 tm 文本挖掘 R 包的源代码中在文件中变换R 有removePunctuation 函数当前定义为 function x preserve intra word dashes FALSE if preserve intra wor

r Unicode textmining tm

我试图从我构建的语料库中删除一些单词但它似乎不起作用我首先遍历所有内容并创建一个数据框按频率顺序列出我的单词我使用此列表来识别我不感兴趣的单词然后尝试创建一个删除单词的新列表但是这些词仍然保留在我的数据集中我想知道我做错了什

r Text textmining tm corpus

遵循许多创建指南biGrams使用 tm 和 RWeka 包我感到沮丧的是只有1 Grams被退回tdm 通过多次试验和错误我发现使用实现了正确的功能VCorpus 但不使用 Corpus 顺便说一句我很确定这在 1 个月前与 C

r tm NGram termdocumentmatrix rweka