Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix
我有一个巨大的语料库 我只对我预先知道的少数术语的出现感兴趣 有没有办法使用以下方法从语料库创建术语文档矩阵tm包 其中只使用和包含我预先指定的术语 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化 但由于内存大
r
tm
corpus
termdocumentmatrix
在 R 中安装旧包时出错
我正在尝试安装 0 6 2 版本的 tm 库 我已经从以下位置下载了 tar gz 文件archive并在 RStudio 中选择 工具 gt 存档 gt 打包存档文件 来安装它 但是 我收到以下错误 有人可以帮我解决这个问题吗 安装sou
r
gcc
RStudio
tm
如何使用 tm 创建 *.docx 文件的语料库?
我有 MS Word 文档的混合文件类型集合 有些文件是 doc 有些是 docx 我正在学习使用tm我 或多或少 成功创建了一个由 doc 文件组成的语料库 ex eng lt Corpus DirSource R expertise c
r
docx
tm
删除文本中的所有标点符号,包括 tm 包的撇号
我有一个由推文 只是消息文本 组成的向量 我正在清理它以进行文本挖掘 我用过removePunctuation来自tm像这样的包 clean tweet text removePunctuation tweet text 这产生了一个从文本
r
textmining
tm
如何手动设置语料库中的文档ID?
我正在从数据帧创建 Copus 我将其作为VectorSource因为我只想将一列用作文本源 这可以找到 但是我需要语料库中的文档 ID 来匹配数据帧中的文档 ID 文档 ID 存储在原始数据框中的单独列中 df lt as data fr
r
tm
R 使用 %in% 从字符向量中删除停用词
我有一个包含字符串的数据框 我想从中删除停用词 我试图避免使用tm打包 因为它是一个大数据集并且tm似乎跑得有点慢 我正在使用tm stopword字典 library plyr library tm stopWords lt stopwo
r
NLP
subset
tm
stopwords
R DocumentTermMatrix 控制列表不起作用,默默地忽略未知参数
我有以下两个 DTM dtm lt DocumentTermMatrix t dtmImproved lt DocumentTermMatrix t control list minWordLength 4 minDocFreq 5 当我实
r
matrix
Controls
tm
如何编写自定义的removePunctuation()函数以更好地处理Unicode字符?
在 tm 文本挖掘 R 包的源代码中 在文件中变换R 有removePunctuation 函数 当前定义为 function x preserve intra word dashes FALSE if preserve intra wor
r
Unicode
textmining
tm
R tm removeWords函数不删除单词
我试图从我构建的语料库中删除一些单词 但它似乎不起作用 我首先遍历所有内容并创建一个数据框 按频率顺序列出我的单词 我使用此列表来识别我不感兴趣的单词 然后尝试创建一个删除单词的新列表 但是 这些词仍然保留在我的数据集中 我想知道我做错了什
r
Text
textmining
tm
corpus
使用 tm 和 RWeka 创建 N-Grams - 适用于 VCorpus,但不适用于 Corpus
遵循许多创建指南biGrams使用 tm 和 RWeka 包 我感到沮丧的是 只有1 Grams被退回tdm 通过多次试验和错误 我发现使用 实现了正确的功能VCorpus 但不使用 Corpus 顺便说一句 我很确定这在 1 个月前与 C
r
tm
NGram
termdocumentmatrix
rweka
«
1
2
3