textmining

使用 R 将复数转换为单数

如何使用 R 将语料库中的复数文本转换为单数我正在尝试 tm 包但我找不到任何功能我尝试过这个函数但这不能应用于语料库 aggregate plurals lt function v aggro fen lt function v

r textmining

tm.package：findAssocs 与 Cosine

我是新来的我的问题是数学问题而不是编程性质我想就我的方法是否有意义获得第二意见我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹尽管它在通过该包提供的数据例如纽约时报和美国国会上表现得相当不错

r Math textmining tm cosinesimilarity

使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词当我使用 nltk 教程中描述的以下方法时我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text

python NLP NLTK textmining

Python 的 tfidf 数据框

我必须对一些情绪进行分类我的数据框是这样的 Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negative 我做了一

python pandas DataFrame textmining tfidf

文本文件的信息增益计算？

我正在尝试使用信息增益 PCA 和遗传算法进行文本分类但表演完之后预处理词干提取停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID

Java datamining informationretrieval textmining

Twitter 中的表情符号 R 中的情感分析

如何处理摆脱表情符号以便我可以对推文进行排序以进行情感分析得到 sort list y 中的错误输入无效 Thanks 这就是从 twitter 到 r 的表情符号的显示方式 xed xed u0083 xed xed xed xe

r textmining iconv sentimentanalysis

如何识别给定文本中的想法和概念

我目前正在开发一个项目如果能够检测文本正文中何时提到某个主题想法这将非常有用例如如果文本包含如果你告诉我更多关于琼斯先生的信息也许会有帮助如果我能描述一下他的外貌或者最好是一张照片也会很有用吗如果能够检测到此人索要琼斯

artificialintelligence NLP NLTK textmining

python luigi 意外死亡，退出代码为 -11

我有一个数据管道luigi如果我让 1 名工人来完成这项任务效果就非常好但是如果我放置 gt 1 个工作线程那么它会在具有 2 个依赖项的阶段中死亡意外地退出代码为 11 代码相当复杂因此很难给出最小的示例问题的要点是我正在做

python textmining gensim luigi

使用哈希字典的词形还原函数不适用于 R 中的 tm 包

我想使用大型外部词典格式如下面的 txt 变量所示对波兰语文本进行词形还原我并不幸运无法使用流行的文本挖掘包来选择波兰语答案https stackoverflow com a 45790325 3480717 https stac

r textmining tm quanteda text2vec

如何抓取给定时间段内的所有 subreddit 帖子

我有一个功能可以抓取 2014 年 11 月 1 日到 2015 年 10 月 31 日期间比特币 subreddit 中的所有帖子然而我只能提取大约 990 个帖子这些帖子只能追溯到 10 月 25 日我不明白发生了什么我在参考

r webscraping textmining reddit

Skipgrams 上下文（kwic）中的关键字？

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字效果很好我现在想对skipgrams 执行此操作捕获进入障碍的上下文以及和进入障碍下面的代码是一个空的 kwic 对象但我不知道我做错了什么

r NLP textmining NGram quanteda

主题模型上是否有任何 R 包或已发布的代码可以考虑时间？

我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模并且理想情况下希望使用考虑时间的主题模型例如 Topics over Time McCallum and Wang 2006 或动态主题模型布莱和拉弗蒂 2006 然而鉴于我不

r textmining topicmodeling

使用卡方检验在文档特征矩阵中进行特征选择

我正在使用自然语言处理进行短信挖掘我用了quanteda包生成文档特征矩阵 dfm 现在我想使用卡方检验进行特征选择我知道已经有很多人问过这个问题了但是我找不到相关的代码答案只是给出了一个简短的概念如下所示 https stat

r textmining featureselection quanteda fselector

在 MATLAB 中对文本进行聚类

我想在 MATLAB 中对文本进行层次凝聚聚类说吧我有四句话 I have a pen I have a paper I have a pencil I have a cat 我想把上面的四个句子聚类一下看看哪个更相似我知道统计工具

MATLAB clusteranalysis textmining

如何使用 Quanteda 和 kwic 进行模糊模式匹配？

我有医生写的文本我希望能够突出显示上下文中的特定单词我在文本中搜索的单词之前 5 个单词和之后 5 个单词假设我想搜索自杀这个词然后我将使用 quanteda 包中的 kwic 函数 kwic 数据集模式自杀窗口 5 到目

r textmining quanteda

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

从这个网站上的答案中学到了很多东西谢谢终于是时候问我自己的问题了我使用 R tm 和 lsa 包来创建清理和简化大约 15 000 个文本文档的语料库然后运行 LSA 潜在语义分析我在 Mac OS X 10 6 下的 R 3

database r textmining corpus tm

R - 缓慢地工作 lapply 对有序因子进行排序

根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333

r textmining lapply corpus termdocumentmatrix

大量在线对话文本的情感分析

标题说明了一切我有一个 SQL 数据库其中充满了在线对话文本我已经用 Python 完成了这个项目的大部分内容所以我想使用 Python 的 NLTK 库来完成此操作除非有一个strong不这样做的理由数据的组织方式为Threa

python NLP NLTK textmining sentimentanalysis

删除字符串中的所有“H”，除了包含“CH”的字符串

我试图删除字符串中的所有 H 除了以下示例中包含 CH 的字符串 strings lt c Cash Wishes Chain Chip Check 我发现下面的代码只删除了 H data lt gsub H strings 您可以通过消极

r regex textmining datacleaning

“RTextTools”create_matrix 出现错误

我正在运行 RTextTools 包来构建文本分类模型当我准备预测数据集并尝试将其转换为矩阵时我收到错误如下 Error in if attr weighting Acronym tf idf weight lt 1e 09 argum

r Classification textmining