textmining

检测 R 中的文本语言

我有一个推文列表我想只保留英文推文我怎样才能做到这一点 The textcat http cran r project org web packages textcat index html包就是这样做的它可以检测 74 种语言更

r textmining

以同样的方式处理由空格分隔的单词

我试图找到同时出现在多个文档中的单词让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的单词 milkyway 在两个文

r textmining tm corpus

大文本语料库破坏 tm_map

在过去的几天里我一直在为这个问题伤透脑筋我搜索了所有 SO 档案并尝试了建议的解决方案但似乎无法让它发挥作用我在 2000 06 1995 99 等文件夹中有一组 txt 文档并且想要运行一些基本的文本挖掘操作例如创建文档术语矩

r textmining tm textanalysis termdocumentmatrix

是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？

有没有办法训练现有的 Apache OpenNLP POS Tagger 模型我需要向模型添加一些特定于我的应用程序的专有名词当我尝试使用以下命令时 opennlp POSTaggerTrainer type maxent model

NLP textmining opennlp postagger

tm 包中的 findAssocs 出现问题

我正在尝试使用 tm 包查找与术语文档矩阵中的特定单词相关的单词我在用findAssocs去做这个论点findAssocs are x 术语文档矩阵 term 持有术语的字符 corlimit 相关下限的数字我一直在得到numeri

r textmining

删除带有前导和尾随停用词的 ngram

我想识别一堆学术论文中的主要 n 元语法包括带有嵌套停用词的 n 元语法但不包括带有前导或尾随停用词的 n 元语法我有大约 100 个 pdf 文件我通过 Adob e 批处理命令将它们转换为纯文本文件并将它们收集在一个目录中从

r textmining tm quanteda

C# 情感分析 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道一个最好是开源的 C 库可以用来计算某些给定文本的整体情绪查看基于朴素贝叶斯分类的开源情感

c textmining

使用 GoogleFinanceSource 函数通过 tm.plugin.webmining 包进行文本挖掘

我正在在线书籍上学习文本挖掘整洁的文本挖掘 http tidytextmining com 在第五章中 http tidytextmining com dtm html financial http tidytextmining com d

r textmining tm

Lucene实体提取

给定实体术语的有限字典我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法目前我已经能够将 Lucene 用于搜索具有一定模糊性的复杂短语突出显示结果但是我不知道如何获取匹配短语的准确偏移量为每场比赛进行特定于实体

Lucene textmining informationextraction lucenehighlighter

（生物医学）词干的所有可能的词形补全

我熟悉 R 中 tm 包的词干提取和补全我试图想出一种快速而肮脏的方法来查找给定单词在某些语料库内的所有变体例如如果我的输入是白细胞我想得到白细胞和白细胞如果我现在必须这样做我可能会这样做 library tm li

python r NLP Bioinformatics textmining

R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列？

我有一个 4 列的数据框第 1 列由 ID 组成第 2 列由文本组成每列约 100 个单词第 3 列和第 4 列由标签组成现在我想从文本列中检索词频最常见的词并将这些频率作为额外列添加到数据框中我希望列名称是单词本身并且列

r textmining tm

R语言文本摘要

我有一个很长的文本文件使用以下帮助R language我想用至少 10 到 20 行或小句子来总结文本如何用至少 10 行总结文本R language 你可以尝试这个来自LSAfun包裹 genericSummary D k 1 其中

r Text textmining summarization

R 文本挖掘 - 处理复数

我正在学习 R 中的文本挖掘并且取得了相当大的成功但我对如何处理复数感到困惑即我希望 nation 和 nations 被算作同一个词理想情况下 dictionary 和 dictionaries 被算作同一个词 x lt nati

r textmining

删除 R 中过于常见的单词（出现在超过 80% 的文档中）

我正在使用 tm 包来创建语料库我已经完成了大部分预处理步骤剩下的事情就是删除过于常见的单词在超过 80 的文档中出现的术语有人能帮我解决这个问题吗 dsc lt Corpus dd dsc lt tm map dsc stripW

r textmining tm

使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语来获取句子中的二元组如下所示 from gensim models import Phrases from gensim models phrases import Phraser documents

python datamining textmining Word2Vec gensim

R 中 2 个 DTM 的余弦相似度

我有 2 个文档术语矩阵 DTM 1 有 1000 个向量 1000 个文档并且 DTM2 有 20 个向量 20 个文档所以基本上我想将 DTM1 的每个文档与 DTM2 进行比较并希望使用余弦函数查看哪些 DTM1 文档与哪些 D

r textmining trigonometry

在 R tm 包中，从 Document-Term-Matrix 构建语料库

使用 tm 包从语料库构建文档术语矩阵非常简单我想从文档术语矩阵构建一个语料库令 M 为文档集中的文档数令 V 为该文档集词汇表中的术语数量那么文档术语矩阵就是 M V 矩阵我还有一个长度为 V 的词汇向量词汇向量中是由文档术语

r textmining tm corpus LDA

使用 R 进行 CPU 和内存高效的 NGram 提取

我编写了一个算法可以从 50000 个街道地址列表中提取 NGram 二元语法三元语法直到 5 元语法我的目标是为每个地址提供一个布尔向量表示该地址中是否存在 NGram 因此每个地址都将由属性向量来表征然后我可以对地址进行聚

r performance textmining NGram

Python Regex - 在文本文件中的（多个）表达式之间提取文本

我是一名 Python 初学者如果您能帮助我解决文本提取问题我将非常感激我想提取文本文件中两个表达式之间的所有文本字母的开头和结尾对于两者字母的开头和结尾都有多种可能的表达式在列表 letter begin 和 letter

python regex textmining textextraction

在R中构建单词共现边缘列表

我有一大块句子我想构建单词共现的无向边缘列表并查看每个边缘的频率我看了一下tm包但没有找到类似的功能有一些我可以使用的包脚本吗多谢注意单词不与其自身同时出现出现两次或多次的单词在同一个句子中仅与其他单词同时出现一次 DF s

r textmining networkanalysis