Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
R中使用余弦距离的层次聚类
我想通过使用余弦相似度与 R 编程语言对文档语料库进行层次聚类 但出现以下错误 if is na n n gt 65536L stop 大小不能为 NA 或 超过 65536 需要 TRUE FALSE 时缺少值 我应该怎么办 为了重现它
r
tm
hierarchicalclustering
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果
我尝试创建一个矩阵 为此我想降低文本 为此 我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
r
matrix
textprocessing
tm
termdocumentmatrix
R 中的转换会导致文档错误
每当我运行此代码时 tm map 行都会给我警告消息 警告信息 在 tm map SimpleCorpus docs toSpace 中 转换删除文档 texts lt read csv Data fast food Domino s Do
r
tm
R tm 包创建 N 个最常见术语的矩阵
我有一个termDocumentMatrix使用创建的tmR 中的包 我正在尝试创建一个包含 50 个最常出现的术语的矩阵 数据框 当我尝试转换为矩阵时 出现此错误 gt ap m lt as matrix mydata dtm Error
r
textmining
tm
termdocumentmatrix
如何使用 R 提取包含特定人名的句子
我正在使用 R 来提取包含特定人名的句子来自文本 这是一个示例段落 在蒂宾根 他作为改革家遭到反对 但在他的叔公约翰 罗伊克林的推荐下 他接受了马丁 路德的召唤 进入维滕贝格大学 梅兰希顿 21 岁时成为维滕贝格的希腊语教授 他研究圣经 尤
regex
r
tm
opennlp
将语料库转换为R中的data.frame
我正在使用 tm 包来应用词干提取 并且需要将结果数据转换为数据框 可以在这里找到解决方案R tm包vcorpus 将语料库转换为数据帧时出错 https stackoverflow com questions 24703920 r tm
r
DataFrame
tm
corpus
从包含多个文档的语料库中删除行
我的语料库中有 4000 个文本文档 作为数据清理的一部分 我想从每个文档中删除包含特定单词的行 例如 library tm doc corpus lt VCorpus DirSource C TextMining Prototype pa
r
tm
组合常见搭配的 NLP 流程
我有一个语料库 我在 R 中使用 tm 包 并且还在 python 中的 NLTK 中镜像相同的脚本 我正在使用一元组 但希望某种解析器能够将通常位于同一位置的单词组合成一个单词 即 我不想再在我的单词中分别看到 New 和 York 当它
python
r
NLP
NLTK
tm
将分隔字符串拆分为 R 数据框中的不同列
我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列 假设我有这个数据框 data lt data frame id c 1 2 3 tok1 c a b c a a d b d e tok2 c alpha bravo alpha
r
Substring
tokenize
tm
以编程方式在 R 中查找股票代码
我有一个包含公司名称的数据字段 例如 company lt c Microsoft Apple Cloudera Ford gt company Company 1 Microsoft 2 Apple 3 Cloudera 4 Ford 等
r
tm
webmining
tidytext、quanteda 和 tm 返回不同的 tf-idf 分数
我正在尝试研究 tf idf 加权语料库 我希望 tf 是按文档划分的比例 而不是简单的计数 我希望所有经典文本挖掘库都会返回相同的值 但我得到了不同的值 我的代码中是否存在错误 例如 我是否需要转置对象 或者 tf idf 计数的默认参数
r
textmining
tm
quanteda
tidytext
R tm包:utf-8文本
我想为 utf 8 中的非英语文本创建一个词云 实际上 它是哈萨克语 文本在 tm 包的检查功能中显示得绝对正确 但是 当我搜索词频时 所有内容都显示不正确 问题在于文本显示为编码字符而不是单词 西里尔字符显示正确 结果 词云变得一团糟 是
r
UTF8
tm
使用 R 文本挖掘包保留土耳其语字符
首先我要说的是 我仍然是 R 的初学者 目前 我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术 然而 我在 R 中显示土耳其语字符时遇到了问题 这就是我所做的 docs lt VCorpus DirSource DIRECTORY e
r
encoding
UTF8
tm
R:为文字云图形/png添加标题
我有一些有效的 R 代码 可以从术语文档矩阵生成标签云 现在 我想从许多文档创建一大堆标签云 并在稍后进行可视化检查 要知道标签云图片属于哪个文档 语料库 我想为生成的图形添加标题 我怎么做 也许这是显而易见的 但我仍然是 R 图形的初学者
r
graphics
tm
WordCloud
R 中带有 tm 包的计数器 ngram
我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本 该脚本适用于单个单词 而不适用于复合词 es 富 酒吧 富酒吧 这是代码 require tm my docs lt c foo ba
r
Dictionary
Frequency
textmining
tm
如何从 csv 文件读取表格中的文本
我是新使用 tm 包 我想读取一个 csv 文件 其中一列包含 2000 个文本 第二列包含因子变量 yes no 到语料库中 我的目的是将文本转换为矩阵并使用因子变量作为预测目标 我还需要将语料库划分为训练集和测试集 我阅读了一些文档 例
r
textmining
tm
tm.package:findAssocs 与 Cosine
我是新来的 我的问题是数学问题而不是编程性质 我想就我的方法是否有意义获得第二意见 我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹 尽管它在通过该包提供的数据 例如 纽约时报 和美国国会 上表现得相当不错
r
Math
textmining
tm
cosinesimilarity
如何使用stemCompletion函数(tm包)从字典中完成词干语料库
我在 R 的 tm 包中遇到问题 我使用的是 0 6 2 版本 以下问题 2个不同的错误 已得到解答here https stackoverflow com questions 24191728 documenttermmatrix err
r
tm
每个术语的频率 - R TM DocumentTermMatrix
我对 R 非常陌生 无法完全理解 DocumentTermMatrix 我有一个使用 TM 包创建的 DocumentTermMatrix 它包含术语频率和其中的术语 但我不知道如何访问它们 理想情况下 我想要 Term the 200 i
r
tm
termdocumentmatrix
将字符串中的数字范围替换为单个数字
有没有办法将字符串中的数字范围替换为单个数字 数字的范围可以是 n n 最有可能是 1 15 也可以是 4 10 范围可以用 a 表示 a lt I would like to buy 1 3 cats 或与单词 b 一起使用 例如 to
r
Text
replace
tm
tidytext
1
2
3
»