textmining

如何使用 tf-idf 选择停用词？（非英语语料库）

我已经成功评估了tf idf 函数 http en wikipedia org wiki Tf idf对于给定的语料库如何找到每个文档的停用词和最佳词据我所知给定单词和文档的 tf idf 较低意味着它不是选择该文档的好单词停用词是

informationretrieval textmining stopwords tfidf

如何使用 word2vec 找到与向量最接近的单词

我刚刚开始使用 Word2vec 我想知道如何找到最接近向量的单词我有这个向量它是一组向量的平均向量 array 0 00449447 0 00310097 0 02421786 dtype float32 有没有一种直接的方法可以在我

python textmining dataanalysis Word2Vec

显式语义分析

我遇到了这个术语显式语义分析它使用维基百科作为参考找到文档中的相似性并将它们分类如果我错了请纠正我我遇到的链接是here http www cs technion ac il gabr resources code esa es

Text similarity textmining

比较文本文档含义的最佳方法？

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法我使用了 TF IDF Cosine 相似度和其他相似度度量但这会在单词或 n gram 级别上比较文档我正在寻找一种方法来比较meaning的文件最好的方法是什

machinelearning NLP artificialintelligence textmining

如何找到文本所涉及的 wikidata（或 freebase 或 DBpedia）主题列表？

我正在寻找一种解决方案来提取文本或 html 文档所涉及的概念列表我希望这些概念成为 wikidata 主题或 freebase 或 DBpedia 例如 Bad 是迈克尔杰克逊的歌曲应该返回 Michael Jackson 艺术

ontology textmining wikidata namedentityextraction

如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

LDA 原始输出一元语法主题1 水肺水蒸汽潜水主题2 二氧化物植物绿色碳所需输出二元组主题主题1 水肺潜水水蒸气主题2 绿色植物二氧化碳任何想法鉴于我有一个名为docs 包含文档中的单词列表我可以使用 n

NLP textmining LDA gensim

如何在 R 中查找 DTM 中的术语频率？

我一直在使用 tm 包创建 DocumentTerm 矩阵如下所示 library tm library RWeka library SnowballC src lt DataframeSource data frame data3 Jo

r textmining

OpenNLP 训练中的“截止”和“迭代”是什么意思？

是什么意思cut off and iteration用于 OpenNLP 培训或者自然语言处理我只需要对这些术语进行外行解释据我认为迭代是算法重复的次数截止是一个值如果文本的值高于某个特定类别的截止值它将映射到该类别我对吗

textmining opennlp

使用R识别PDF表格

我正在尝试从一些 pdf 报告内的表格中提取数据我看过一些使用 pdftools 和类似软件包的示例我成功地获取了文本但是我只想提取表格有没有办法使用 R 来识别和提取表格很好的问题我最近也在想同样的事情谢谢我做到了与制

r textmining pdfscraping

使用 R TM 包查找 2 和 3 个单词短语

我正在尝试找到一个代码该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语也许还有另一个我不知道的包我一直在尝试使用标记器但似乎没有运气如果您过去处理过类似的情况您可以发布经过测试且实际有效的代码吗太感谢了您可

r datamining textmining

从复杂（混合）句子中提取简单句子的算法？

有没有一种算法可以用来从段落中提取简单的句子我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪我已经从 Chae Deug Park 等来源对此进行了研究但没有讨论准备简单的句子作为训练数据提前致谢看一眼Apache

NLP extract textmining textextraction informationextraction

python中使用numpy数组出现内存错误

我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic

python NumPy textmining LDA topicmodeling

tidytext、quanteda 和 tm 返回不同的 tf-idf 分数

我正在尝试研究 tf idf 加权语料库我希望 tf 是按文档划分的比例而不是简单的计数我希望所有经典文本挖掘库都会返回相同的值但我得到了不同的值我的代码中是否存在错误例如我是否需要转置对象或者 tf idf 计数的默认参数

r textmining tm quanteda tidytext

如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]

这个问题在这里已经有答案了我有一个包含 2 列的 DF 并且有一个单词列表 list of words lt c tiger elephant rabbit hen dog Lion camel horse df lt tibble ti

r textmining

gensim 的 get_document_topics 方法返回的概率加起来不等于 1

有时它返回所有主题的概率并且一切都很好但有时它只返回几个主题的概率并且它们加起来不等于一似乎这取决于文档一般来说当它返回很少的主题时概率加起来大约为 80 那么它只返回最相关的主题吗有没有办法强制它返回所有概率也许我遗漏了一些

textmining gensim LDA topicmodeling

R 中带有 tm 包的计数器 ngram

我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本该脚本适用于单个单词而不适用于复合词 es 富酒吧富酒吧这是代码 require tm my docs lt c foo ba

r Dictionary Frequency textmining tm

如何从 csv 文件读取表格中的文本

我是新使用 tm 包我想读取一个 csv 文件其中一列包含 2000 个文本第二列包含因子变量 yes no 到语料库中我的目的是将文本转换为矩阵并使用因子变量作为预测目标我还需要将语料库划分为训练集和测试集我阅读了一些文档例

r textmining tm

使用 R 将复数转换为单数

如何使用 R 将语料库中的复数文本转换为单数我正在尝试 tm 包但我找不到任何功能我尝试过这个函数但这不能应用于语料库 aggregate plurals lt function v aggro fen lt function v

r textmining

tm.package：findAssocs 与 Cosine

我是新来的我的问题是数学问题而不是编程性质我想就我的方法是否有意义获得第二意见我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹尽管它在通过该包提供的数据例如纽约时报和美国国会上表现得相当不错

r Math textmining tm cosinesimilarity

使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词当我使用 nltk 教程中描述的以下方法时我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text

python NLP NLTK textmining