corpus

r中如何将列表转换为语料库？

In this question我问如何分割一个巨大的数据框来创建一个语料库感谢答案我能够从数据帧创建一个列表我的问题仍然是从我创建的列表中获取语料库为了进行一些文本挖掘并根据搜索词对数据进行聚类为了解决这个问题我只是将 tm 包

r list corpus

我有一个巨大的语料库我只对我预先知道的少数术语的出现感兴趣有没有办法使用以下方法从语料库创建术语文档矩阵tm包其中只使用和包含我预先指定的术语我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化但由于内存大

r tm corpus termdocumentmatrix

有人建议在哪里可以找到用于小型语料库的日常英语文本档案或集合吗我一直在使用古腾堡项目书籍作为工作原型并希望融入更多现代语言 A最近的回答这里间接指出了一个伟大的Usenet 电影评论档案这是我没想到的而且非常好对于这个特定的程序

NLP linguistics corpus

我试图从我构建的语料库中删除一些单词但它似乎不起作用我首先遍历所有内容并创建一个数据框按频率顺序列出我的单词我使用此列表来识别我不感兴趣的单词然后尝试创建一个删除单词的新列表但是这些词仍然保留在我的数据集中我想知道我做错了什

r Text textmining tm corpus