Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 R 将复数转换为单数
如何使用 R 将语料库中的复数文本转换为单数 我正在尝试 tm 包 但我找不到任何功能 我尝试过这个函数 但这不能应用于语料库 aggregate plurals lt function v aggro fen lt function v
r
textmining
tm.package:findAssocs 与 Cosine
我是新来的 我的问题是数学问题而不是编程性质 我想就我的方法是否有意义获得第二意见 我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹 尽管它在通过该包提供的数据 例如 纽约时报 和美国国会 上表现得相当不错
r
Math
textmining
tm
cosinesimilarity
使用 nltk 从德语文本中提取单词
我正在尝试从德语文档中提取单词 当我使用 nltk 教程中描述的以下方法时 我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text
python
NLP
NLTK
textmining
Python 的 tfidf 数据框
我必须对一些情绪进行分类我的数据框是这样的 Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negative 我做了一
python
pandas
DataFrame
textmining
tfidf
文本文件的信息增益计算?
我正在尝试 使用信息增益 PCA 和遗传算法进行文本分类 但表演完之后预处理 词干提取 停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID
Java
datamining
informationretrieval
textmining
Twitter 中的表情符号 R 中的情感分析
如何处理 摆脱表情符号 以便我可以对推文进行排序以进行情感分析 得到 sort list y 中的错误 输入无效 Thanks 这就是从 twitter 到 r 的表情符号的显示方式 xed xed u0083 xed xed xed xe
r
textmining
iconv
sentimentanalysis
如何识别给定文本中的想法和概念
我目前正在开发一个项目 如果能够检测文本正文中何时提到某个主题 想法 这将非常有用 例如 如果文本包含 如果你告诉我更多关于琼斯先生的信息 也许会有帮助 如果我能描述一下他的外貌 或者最好是一张照片 也会很有用吗 如果能够检测到此人索要琼斯
artificialintelligence
NLP
NLTK
textmining
python luigi 意外死亡,退出代码为 -11
我有一个数据管道luigi如果我让 1 名工人来完成这项任务 效果就非常好 但是 如果我放置 gt 1 个工作线程 那么它会在具有 2 个依赖项的阶段中死亡 意外地退出代码为 11 代码相当复杂 因此很难给出最小的示例 问题的要点是我正在做
python
textmining
gensim
luigi
使用哈希字典的词形还原函数不适用于 R 中的 tm 包
我想使用大型外部词典 格式如下面的 txt 变量所示 对波兰语文本进行词形还原 我并不幸运 无法使用流行的文本挖掘包来选择波兰语 答案https stackoverflow com a 45790325 3480717 https stac
r
textmining
tm
quanteda
text2vec
如何抓取给定时间段内的所有 subreddit 帖子
我有一个功能可以抓取 2014 年 11 月 1 日到 2015 年 10 月 31 日期间比特币 subreddit 中的所有帖子 然而 我只能提取大约 990 个帖子 这些帖子只能追溯到 10 月 25 日 我不明白发生了什么 我在参考
r
webscraping
textmining
reddit
Skipgrams 上下文(kwic)中的关键字?
我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字 效果很好 我现在想对skipgrams 执行此操作 捕获 进入障碍 的上下文以及 和 进入障碍 下面的代码是一个空的 kwic 对象 但我不知道我做错了什么
r
NLP
textmining
NGram
quanteda
主题模型上是否有任何 R 包或已发布的代码可以考虑时间?
我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模 并且理想情况下希望使用考虑时间的主题模型 例如 Topics over Time McCallum and Wang 2006 或动态主题模型 布莱和拉弗蒂 2006 然而 鉴于我不
r
textmining
topicmodeling
使用卡方检验在文档特征矩阵中进行特征选择
我正在使用自然语言处理进行短信挖掘 我用了quanteda包生成文档特征矩阵 dfm 现在我想使用卡方检验进行特征选择 我知道已经有很多人问过这个问题了 但是 我找不到相关的代码 答案只是给出了一个简短的概念 如下所示 https stat
r
textmining
featureselection
quanteda
fselector
在 MATLAB 中对文本进行聚类
我想在 MATLAB 中对文本进行层次凝聚聚类 说吧 我有四句话 I have a pen I have a paper I have a pencil I have a cat 我想把上面的四个句子聚类一下 看看哪个更相似 我知道统计工具
MATLAB
clusteranalysis
textmining
如何使用 Quanteda 和 kwic 进行模糊模式匹配?
我有医生写的文本 我希望能够突出显示上下文中的特定单词 我在文本中搜索的单词之前 5 个单词和之后 5 个单词 假设我想搜索 自杀 这个词 然后我将使用 quanteda 包中的 kwic 函数 kwic 数据集 模式 自杀 窗口 5 到目
r
textmining
quanteda
R tm:将“PCorpus”后端文件哈希数据库重新加载为语料库(例如在重新启动的会话/脚本中)
从这个网站上的答案中学到了很多东西 谢谢 终于是时候问我自己的问题了 我使用 R tm 和 lsa 包 来创建 清理和简化大约 15 000 个文本文档的语料库 然后运行 LSA 潜在语义分析 我在 Mac OS X 10 6 下的 R 3
database
r
textmining
corpus
tm
R - 缓慢地工作 lapply 对有序因子进行排序
根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333
r
textmining
lapply
corpus
termdocumentmatrix
大量在线对话文本的情感分析
标题说明了一切 我有一个 SQL 数据库 其中充满了在线对话文本 我已经用 Python 完成了这个项目的大部分内容 所以我想使用 Python 的 NLTK 库来完成此操作 除非有一个strong不这样做的理由 数据的组织方式为Threa
python
NLP
NLTK
textmining
sentimentanalysis
删除字符串中的所有“H”,除了包含“CH”的字符串
我试图删除字符串中的所有 H 除了以下示例中包含 CH 的字符串 strings lt c Cash Wishes Chain Chip Check 我发现下面的代码只删除了 H data lt gsub H strings 您可以通过消极
r
regex
textmining
datacleaning
“RTextTools”create_matrix 出现错误
我正在运行 RTextTools 包来构建文本分类模型 当我准备预测数据集并尝试将其转换为矩阵时 我收到错误如下 Error in if attr weighting Acronym tf idf weight lt 1e 09 argum
r
Classification
textmining
«
1
2
3
4
»