Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
R tm 包创建 N 个最常见术语的矩阵
我有一个termDocumentMatrix使用创建的tmR 中的包 我正在尝试创建一个包含 50 个最常出现的术语的矩阵 数据框 当我尝试转换为矩阵时 出现此错误 gt ap m lt as matrix mydata dtm Error
r
textmining
tm
termdocumentmatrix
如何有效计算文档流中文档之间的相似度
我收集文本文档 在 Node js 中 其中一个文档i表示为单词列表 考虑到新文档以文档流的形式出现 计算这些文档之间相似性的有效方法是什么 我目前对每个文档中单词的归一化频率使用余弦相似度 我不使用 TF IDF 词频 逆文档频率 因为我
nodejs
Stream
NLP
cosinesimilarity
termdocumentmatrix
如何计算术语-文档矩阵?
我知道术语文档矩阵是一个数学矩阵 描述文档集合中出现的术语的频率 在文档术语矩阵中 行对应于集合中的文档 列对应于术语 我在用sklearn 的 CountVectorizer从字符串 文本文件 中提取特征以减轻我的任务 以下代码根据以下内
python
scikitlearn
scipy
termdocumentmatrix
我如何告诉 Solr 返回每个文档的命中搜索词?
我对 Solr 中的查询有疑问 当我使用多个搜索词执行查询时 这些搜索词全部由 OR 逻辑链接 例如q content foo OR bar OR foobar 比 Solr 返回所有与这些术语匹配的文档列表 但 Solr 做了什么not返
Solr
termdocumentmatrix
每个术语的频率 - R TM DocumentTermMatrix
我对 R 非常陌生 无法完全理解 DocumentTermMatrix 我有一个使用 TM 包创建的 DocumentTermMatrix 它包含术语频率和其中的术语 但我不知道如何访问它们 理想情况下 我想要 Term the 200 i
r
tm
termdocumentmatrix
R - 缓慢地工作 lapply 对有序因子进行排序
根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333
r
textmining
lapply
corpus
termdocumentmatrix
大文本语料库破坏 tm_map
在过去的几天里 我一直在为这个问题伤透脑筋 我搜索了所有 SO 档案并尝试了建议的解决方案 但似乎无法让它发挥作用 我在 2000 06 1995 99 等文件夹中有一组 txt 文档 并且想要运行一些基本的文本挖掘操作 例如创建文档术语矩
r
textmining
tm
textanalysis
termdocumentmatrix
如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix
我有一个巨大的语料库 我只对我预先知道的少数术语的出现感兴趣 有没有办法使用以下方法从语料库创建术语文档矩阵tm包 其中只使用和包含我预先指定的术语 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化 但由于内存大
r
tm
corpus
termdocumentmatrix
R构建文档术语矩阵如何匹配其值由空格分隔的短语组成的字典
当使用R进行文本挖掘时 在对文本数据进行重新处理后 我们需要创建一个文档术语矩阵以供进一步探索 但是和中文类似 英语也有一些特定的阶段 比如 语义距离 机器学习 如果把它们分词成词 它的含义就完全不同了 我想知道如何匹配预先定义的词典值由空
r
Dictionary
textmining
termdocumentmatrix
quanteda
使用 tm 和 RWeka 创建 N-Grams - 适用于 VCorpus,但不适用于 Corpus
遵循许多创建指南biGrams使用 tm 和 RWeka 包 我感到沮丧的是 只有1 Grams被退回tdm 通过多次试验和错误 我发现使用 实现了正确的功能VCorpus 但不使用 Corpus 顺便说一句 我很确定这在 1 个月前与 C
r
tm
NGram
termdocumentmatrix
rweka