tm

使用哈希字典的词形还原函数不适用于 R 中的 tm 包

我想使用大型外部词典格式如下面的 txt 变量所示对波兰语文本进行词形还原我并不幸运无法使用流行的文本挖掘包来选择波兰语答案https stackoverflow com a 45790325 3480717 https stac

r textmining tm quanteda text2vec

ngram 的 dict 函数

我有这样的文字 library dplyr glimpse text chr 1 11 Welcome to Wikipedia bla Discover Ekopedia the practical encyclopedia about

r tm

tm 自定义删除除主题标签之外的标点符号

我有一个来自 Twitter 的推文语料库我清理了这个语料库 removeWords tolower 删除 URls 最后还想删除标点符号这是我的代码 tweetCorpus lt tm map tweetCorpus removePu

r customization textprocessing tm punctuation

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

从这个网站上的答案中学到了很多东西谢谢终于是时候问我自己的问题了我使用 R tm 和 lsa 包来创建清理和简化大约 15 000 个文本文档的语料库然后运行 LSA 潜在语义分析我在 Mac OS X 10 6 下的 R 3

database r textmining corpus tm

使用 TermDocumentMatrix 进行 UTF-8 字符编码

我正在努力学习R 我已经尝试解决这个问题几个小时了我已经搜索并尝试了很多方法来解决这个问题但到目前为止还没有运气那么我们开始吧我正在从 Twitter 通过 twitteR 下载一些随机推文当我检查数据框时我可以看到所有特殊字符

r UTF8 tm

以同样的方式处理由空格分隔的单词

我试图找到同时出现在多个文档中的单词让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的单词 milkyway 在两个文

r textmining tm corpus

大文本语料库破坏 tm_map

在过去的几天里我一直在为这个问题伤透脑筋我搜索了所有 SO 档案并尝试了建议的解决方案但似乎无法让它发挥作用我在 2000 06 1995 99 等文件夹中有一组 txt 文档并且想要运行一些基本的文本挖掘操作例如创建文档术语矩

r textmining tm textanalysis termdocumentmatrix

删除带有前导和尾随停用词的 ngram

我想识别一堆学术论文中的主要 n 元语法包括带有嵌套停用词的 n 元语法但不包括带有前导或尾随停用词的 n 元语法我有大约 100 个 pdf 文件我通过 Adob e 批处理命令将它们转换为纯文本文件并将它们收集在一个目录中从

r textmining tm quanteda

StemDocument R 文本挖掘

我的数据是一个txt文件如下所示字数 doc概述1客户1 store 1 marge 1 price 2 stock 2经济学2 文档的编号已排序从最小到最大现在我想要每个文档属于该文档的所有单词现在它们站在一列中但我想要文本文

r tm stemming

从 R 中用户定义的语料库中删除停用词

我有一组文件 documents c She had toast for breakfast The coffee this morning was excellent For lunch let s all have pancakes L

r tm topicmodeling

使用 GoogleFinanceSource 函数通过 tm.plugin.webmining 包进行文本挖掘

我正在在线书籍上学习文本挖掘整洁的文本挖掘 http tidytextmining com 在第五章中 http tidytextmining com dtm html financial http tidytextmining com d

r textmining tm

tm 使用示例

你能举个使用的例子吗tm 我不知道如何初始化struct 当前日期以此格式写入y m d 如何使用tm结构 call time 获取当前日期时间自 1970 年 1 月 1 日以来的秒数 call localtime to get st

c tm

制作 Twitter wordcloud 时运行“tolower”后出现有趣错误

尝试从 Twitter 数据创建词云但出现以下错误 Error in FUN X 72L invalid input xxx bla bla bla http t co 56Fb78aTSC in utf8towcs 运行 mytwitt

r twitter tm

根据语义相似性/相关性从列表中删除重复项

R tm 如何根据语义相似性删除列表中的重复项 v lt c bank banks banking ford suv toyota suv nissan suv 我预期的解决方案是c bank ford suv toyota suv nis

r tm

R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？

我有一个 4 列的数据框第 1 列由 ID 组成第 2 列由文本组成每列约 100 个单词第 3 列和第 4 列由标签组成现在我想从文本列中检索词频最常见的词并将这些频率作为额外列添加到数据框中我希望列名称是单词本身并且列

r textmining tm

根据词典数据框替换语料库中的单词

我有兴趣替换 a 中的所有单词tm根据由两列数据框组成的字典的语料库对象其中第一列是要匹配的单词第二列是替换单词我被困住了translate功能我看见这个答案但我无法将其转换为要传递给的函数tm map 请考虑以下 MWE libr

r NLP tm

应用 tm 方法“stemCompletion”时一个变量的多个结果

我有一个语料库其中包含 3 个变量 ID 标题摘要的 15 个观察结果的期刊数据我使用 R Studio 从 csv 文件中读取数据每个观察一行在执行一些文本挖掘操作时我在使用 StemCompletion 方法时遇到了一些麻

r RStudio tm stemming

删除 R 中过于常见的单词（出现在超过 80% 的文档中）

我正在使用 tm 包来创建语料库我已经完成了大部分预处理步骤剩下的事情就是删除过于常见的单词在超过 80 的文档中出现的术语有人能帮我解决这个问题吗 dsc lt Corpus dd dsc lt tm map dsc stripW

r textmining tm

如何计算文档中单词与特定术语的接近度

我正在尝试找出一种方法来计算文档中特定术语的单词接近度以及平均接近度按单词我知道 SO 上也有类似的问题但没有任何东西可以给我我需要的答案甚至没有给我指出一些有用的地方假设我有以下文本 song lt Far over the m

r tm quanteda

在 R tm 包中，从 Document-Term-Matrix 构建语料库

使用 tm 包从语料库构建文档术语矩阵非常简单我想从文档术语矩阵构建一个语料库令 M 为文档集中的文档数令 V 为该文档集词汇表中的术语数量那么文档术语矩阵就是 M V 矩阵我还有一个长度为 V 的词汇向量词汇向量中是由文档术语

r textmining tm corpus LDA