Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用哈希字典的词形还原函数不适用于 R 中的 tm 包
我想使用大型外部词典 格式如下面的 txt 变量所示 对波兰语文本进行词形还原 我并不幸运 无法使用流行的文本挖掘包来选择波兰语 答案https stackoverflow com a 45790325 3480717 https stac
r
textmining
tm
quanteda
text2vec
ngram 的 dict 函数
我有这样的文字 library dplyr glimpse text chr 1 11 Welcome to Wikipedia bla Discover Ekopedia the practical encyclopedia about
r
tm
tm 自定义删除除主题标签之外的标点符号
我有一个来自 Twitter 的推文语料库 我清理了这个语料库 removeWords tolower 删除 URls 最后还想删除标点符号 这是我的代码 tweetCorpus lt tm map tweetCorpus removePu
r
customization
textprocessing
tm
punctuation
R tm:将“PCorpus”后端文件哈希数据库重新加载为语料库(例如在重新启动的会话/脚本中)
从这个网站上的答案中学到了很多东西 谢谢 终于是时候问我自己的问题了 我使用 R tm 和 lsa 包 来创建 清理和简化大约 15 000 个文本文档的语料库 然后运行 LSA 潜在语义分析 我在 Mac OS X 10 6 下的 R 3
database
r
textmining
corpus
tm
使用 TermDocumentMatrix 进行 UTF-8 字符编码
我正在努力学习R 我已经尝试解决这个问题几个小时了 我已经搜索并尝试了很多方法来解决这个问题 但到目前为止还没有运气 那么我们开始吧 我正在从 Twitter 通过 twitteR 下载一些随机推文 当我检查数据框时 我可以看到所有特殊字符
r
UTF8
tm
以同样的方式处理由空格分隔的单词
我试图找到同时出现在多个文档中的单词 让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的 单词 milkyway 在两个文
r
textmining
tm
corpus
大文本语料库破坏 tm_map
在过去的几天里 我一直在为这个问题伤透脑筋 我搜索了所有 SO 档案并尝试了建议的解决方案 但似乎无法让它发挥作用 我在 2000 06 1995 99 等文件夹中有一组 txt 文档 并且想要运行一些基本的文本挖掘操作 例如创建文档术语矩
r
textmining
tm
textanalysis
termdocumentmatrix
删除带有前导和尾随停用词的 ngram
我想识别一堆学术论文中的主要 n 元语法 包括带有嵌套停用词的 n 元语法 但不包括带有前导或尾随停用词的 n 元语法 我有大约 100 个 pdf 文件 我通过 Adob e 批处理命令将它们转换为纯文本文件 并将它们收集在一个目录中 从
r
textmining
tm
quanteda
StemDocument R 文本挖掘
我的数据是一个txt文件 如下所示 字数 doc概述1客户1 store 1 marge 1 price 2 stock 2经济学2 文档的编号已排序 从最小到最大 现在我想要每个文档属于该文档的所有单词 现在它们站在一列中 但我想要文本文
r
tm
stemming
从 R 中用户定义的语料库中删除停用词
我有一组文件 documents c She had toast for breakfast The coffee this morning was excellent For lunch let s all have pancakes L
r
tm
topicmodeling
使用 GoogleFinanceSource 函数通过 tm.plugin.webmining 包进行文本挖掘
我正在在线书籍上学习文本挖掘整洁的文本挖掘 http tidytextmining com 在第五章中 http tidytextmining com dtm html financial http tidytextmining com d
r
textmining
tm
tm 使用示例
你能举个使用的例子吗tm 我不知道如何初始化struct 当前日期以此格式写入y m d 如何使用tm结构 call time 获取当前日期 时间 自 1970 年 1 月 1 日以来的秒数 call localtime to get st
c
tm
制作 Twitter wordcloud 时运行“tolower”后出现有趣错误
尝试从 Twitter 数据创建词云 但出现以下错误 Error in FUN X 72L invalid input xxx bla bla bla http t co 56Fb78aTSC in utf8towcs 运行 mytwitt
r
twitter
tm
根据语义相似性/相关性从列表中删除重复项
R tm 如何根据语义相似性删除列表中的重复项 v lt c bank banks banking ford suv toyota suv nissan suv 我预期的解决方案是c bank ford suv toyota suv nis
r
tm
R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列?
我有一个 4 列的数据框 第 1 列由 ID 组成 第 2 列由文本组成 每列约 100 个单词 第 3 列和第 4 列由标签组成 现在我想从文本列中检索词频 最常见的词 并将这些频率作为额外列添加到数据框中 我希望列名称是单词本身 并且列
r
textmining
tm
根据词典数据框替换语料库中的单词
我有兴趣替换 a 中的所有单词tm根据由两列数据框组成的字典的语料库对象 其中第一列是要匹配的单词 第二列是替换单词 我被困住了translate功能 我看见这个答案但我无法将其转换为要传递给的函数tm map 请考虑以下 MWE libr
r
NLP
tm
应用 tm 方法“stemCompletion”时一个变量的多个结果
我有一个语料库 其中包含 3 个变量 ID 标题 摘要 的 15 个观察结果的期刊数据 我使用 R Studio 从 csv 文件中读取数据 每个观察一行 在执行一些文本挖掘操作时 我在使用 StemCompletion 方法时遇到了一些麻
r
RStudio
tm
stemming
删除 R 中过于常见的单词(出现在超过 80% 的文档中)
我正在使用 tm 包来创建语料库 我已经完成了大部分预处理步骤 剩下的事情就是删除过于常见的单词 在超过 80 的文档中出现的术语 有人能帮我解决这个问题吗 dsc lt Corpus dd dsc lt tm map dsc stripW
r
textmining
tm
如何计算文档中单词与特定术语的接近度
我正在尝试找出一种方法来计算文档中特定术语的单词接近度以及平均接近度 按单词 我知道 SO 上也有类似的问题 但没有任何东西可以给我我需要的答案 甚至没有给我指出一些有用的地方 假设我有以下文本 song lt Far over the m
r
tm
quanteda
在 R tm 包中,从 Document-Term-Matrix 构建语料库
使用 tm 包从语料库构建文档术语矩阵非常简单 我想从文档术语矩阵构建一个语料库 令 M 为文档集中的文档数 令 V 为该文档集词汇表中的术语数量 那么文档术语矩阵就是 M V 矩阵 我还有一个长度为 V 的词汇向量 词汇向量中是由文档术语
r
textmining
tm
corpus
LDA
«
1
2
3
»