Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
检测 R 中的文本语言
我有一个推文列表 我想只保留英文推文 我怎样才能做到这一点 The textcat http cran r project org web packages textcat index html包就是这样做的 它可以检测 74 种 语言 更
r
textmining
以同样的方式处理由空格分隔的单词
我试图找到同时出现在多个文档中的单词 让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的 单词 milkyway 在两个文
r
textmining
tm
corpus
大文本语料库破坏 tm_map
在过去的几天里 我一直在为这个问题伤透脑筋 我搜索了所有 SO 档案并尝试了建议的解决方案 但似乎无法让它发挥作用 我在 2000 06 1995 99 等文件夹中有一组 txt 文档 并且想要运行一些基本的文本挖掘操作 例如创建文档术语矩
r
textmining
tm
textanalysis
termdocumentmatrix
是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中?
有没有办法训练现有的 Apache OpenNLP POS Tagger 模型 我需要向模型添加一些特定于我的应用程序的专有名词 当我尝试使用以下命令时 opennlp POSTaggerTrainer type maxent model
NLP
textmining
opennlp
postagger
tm 包中的 findAssocs 出现问题
我正在尝试使用 tm 包查找与术语文档矩阵中的特定单词相关的单词 我在用findAssocs去做这个 论点findAssocs are x 术语 文档矩阵 term 持有术语的字符 corlimit 相关下限的数字 我一直在得到numeri
r
textmining
删除带有前导和尾随停用词的 ngram
我想识别一堆学术论文中的主要 n 元语法 包括带有嵌套停用词的 n 元语法 但不包括带有前导或尾随停用词的 n 元语法 我有大约 100 个 pdf 文件 我通过 Adob e 批处理命令将它们转换为纯文本文件 并将它们收集在一个目录中 从
r
textmining
tm
quanteda
C# 情感分析 [关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 有谁知道一个 最好是开源的 C 库可以用来计算某些给定文本的整体情绪 查看基于朴素贝叶斯分类的开源情感
c
textmining
使用 GoogleFinanceSource 函数通过 tm.plugin.webmining 包进行文本挖掘
我正在在线书籍上学习文本挖掘整洁的文本挖掘 http tidytextmining com 在第五章中 http tidytextmining com dtm html financial http tidytextmining com d
r
textmining
tm
Lucene实体提取
给定实体术语的有限字典 我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法 目前我已经能够将 Lucene 用于 搜索具有一定模糊性的复杂短语 突出显示结果 但是 我不知道如何 获取匹配短语的准确偏移量 为每场比赛进行特定于实体
Lucene
textmining
informationextraction
lucenehighlighter
(生物医学)词干的所有可能的词形补全
我熟悉 R 中 tm 包的词干提取和补全 我试图想出一种快速而肮脏的方法来查找给定单词 在某些语料库内 的所有变体 例如 如果我的输入是 白细胞 我想得到 白细胞 和 白细胞 如果我现在必须这样做 我可能会这样做 library tm li
python
r
NLP
Bioinformatics
textmining
R文本挖掘-如何将R数据框列中的文本更改为具有词频的多个列?
我有一个 4 列的数据框 第 1 列由 ID 组成 第 2 列由文本组成 每列约 100 个单词 第 3 列和第 4 列由标签组成 现在我想从文本列中检索词频 最常见的词 并将这些频率作为额外列添加到数据框中 我希望列名称是单词本身 并且列
r
textmining
tm
R语言文本摘要
我有一个很长的文本文件 使用以下帮助R language我想用至少 10 到 20 行或小句子来总结文本 如何用至少 10 行总结文本R language 你可以尝试这个 来自LSAfun包裹 genericSummary D k 1 其中
r
Text
textmining
summarization
R 文本挖掘 - 处理复数
我正在学习 R 中的文本挖掘 并且取得了相当大的成功 但我对如何处理复数感到困惑 即我希望 nation 和 nations 被算作同一个词 理想情况下 dictionary 和 dictionaries 被算作同一个词 x lt nati
r
textmining
删除 R 中过于常见的单词(出现在超过 80% 的文档中)
我正在使用 tm 包来创建语料库 我已经完成了大部分预处理步骤 剩下的事情就是删除过于常见的单词 在超过 80 的文档中出现的术语 有人能帮我解决这个问题吗 dsc lt Corpus dd dsc lt tm map dsc stripW
r
textmining
tm
使用 Gensim 提取短语时出错
我正在尝试使用 Gensim 中的短语来获取句子中的二元组 如下所示 from gensim models import Phrases from gensim models phrases import Phraser documents
python
datamining
textmining
Word2Vec
gensim
R 中 2 个 DTM 的余弦相似度
我有 2 个文档术语矩阵 DTM 1 有 1000 个向量 1000 个文档 并且 DTM2 有 20 个向量 20 个文档 所以基本上我想将 DTM1 的每个文档与 DTM2 进行比较 并希望使用余弦函数查看哪些 DTM1 文档与哪些 D
r
textmining
trigonometry
在 R tm 包中,从 Document-Term-Matrix 构建语料库
使用 tm 包从语料库构建文档术语矩阵非常简单 我想从文档术语矩阵构建一个语料库 令 M 为文档集中的文档数 令 V 为该文档集词汇表中的术语数量 那么文档术语矩阵就是 M V 矩阵 我还有一个长度为 V 的词汇向量 词汇向量中是由文档术语
r
textmining
tm
corpus
LDA
使用 R 进行 CPU 和内存高效的 NGram 提取
我编写了一个算法 可以从 50000 个街道地址列表中提取 NGram 二元语法 三元语法 直到 5 元语法 我的目标是为每个地址提供一个布尔向量 表示该地址中是否存在 NGram 因此 每个地址都将由属性向量来表征 然后我可以对地址进行聚
r
performance
textmining
NGram
Python Regex - 在文本文件中的(多个)表达式之间提取文本
我是一名 Python 初学者 如果您能帮助我解决文本提取问题 我将非常感激 我想提取文本文件中两个表达式之间的所有文本 字母的开头和结尾 对于两者 字母的开头和结尾都有多种可能的表达式 在列表 letter begin 和 letter
python
regex
textmining
textextraction
在R中构建单词共现边缘列表
我有一大块句子 我想构建单词共现的无向边缘列表并查看每个边缘的频率 我看了一下tm包但没有找到类似的功能 有一些我可以使用的包 脚本吗 多谢 注意 单词不与其自身同时出现 出现两次或多次的单词在同一个句子中仅与其他单词同时出现一次 DF s
r
textmining
networkanalysis
«
1
2
3
4
»