Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 tf-idf 选择停用词? (非英语语料库)
我已经成功评估了tf idf 函数 http en wikipedia org wiki Tf idf对于给定的语料库 如何找到每个文档的停用词和最佳词 据我所知 给定单词和文档的 tf idf 较低意味着它不是选择该文档的好单词 停用词是
informationretrieval
textmining
stopwords
tfidf
如何使用 word2vec 找到与向量最接近的单词
我刚刚开始使用 Word2vec 我想知道如何找到最接近向量的单词 我有这个向量 它是一组向量的平均向量 array 0 00449447 0 00310097 0 02421786 dtype float32 有没有一种直接的方法可以在我
python
textmining
dataanalysis
Word2Vec
显式语义分析
我遇到了这个术语 显式语义分析 它使用维基百科作为参考 找到文档中的相似性并将它们分类 如果我错了 请纠正我 我遇到的链接是here http www cs technion ac il gabr resources code esa es
Text
similarity
textmining
比较文本文档含义的最佳方法?
我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法 我使用了 TF IDF Cosine 相似度和其他相似度度量 但这会在单词 或 n gram 级别上比较文档 我正在寻找一种方法来比较meaning的文件 最好的方法是什
machinelearning
NLP
artificialintelligence
textmining
如何找到文本所涉及的 wikidata(或 freebase 或 DBpedia)主题列表?
我正在寻找一种解决方案来提取文本 或 html 文档所涉及的概念列表 我希望这些概念成为 wikidata 主题 或 freebase 或 DBpedia 例如 Bad 是迈克尔 杰克逊的歌曲 应该返回 Michael Jackson 艺术
ontology
textmining
wikidata
namedentityextraction
如何在 python-gensim 中使用潜在狄利克雷分配(LDA)来抽象二元组主题而不是一元组?
LDA 原始输出 一元语法 主题1 水肺 水 蒸汽 潜水 主题2 二氧化物 植物 绿色 碳 所需输出 二元组主题 主题1 水肺潜水 水蒸气 主题2 绿色植物 二氧化碳 任何想法 鉴于我有一个名为docs 包含文档中的单词列表 我可以使用 n
NLP
textmining
LDA
gensim
如何在 R 中查找 DTM 中的术语频率?
我一直在使用 tm 包创建 DocumentTerm 矩阵 如下所示 library tm library RWeka library SnowballC src lt DataframeSource data frame data3 Jo
r
textmining
OpenNLP 训练中的“截止”和“迭代”是什么意思?
是什么意思cut off and iteration用于 OpenNLP 培训 或者自然语言处理 我只需要对这些术语进行外行解释 据我认为 迭代是算法重复的次数 截止是一个值 如果文本的值高于某个特定类别的截止值 它将映射到该类别 我对吗
textmining
opennlp
使用R识别PDF表格
我正在尝试从一些 pdf 报告内的表格中提取数据 我看过一些使用 pdftools 和类似软件包的示例 我成功地获取了文本 但是 我只想提取表格 有没有办法使用 R 来识别和提取表格 很好的问题 我最近也在想同样的事情 谢谢 我做到了 与制
r
textmining
pdfscraping
使用 R TM 包查找 2 和 3 个单词短语
我正在尝试找到一个代码 该代码实际上可以在 R 文本挖掘包中找到最常用的两个和三个单词短语 也许还有另一个我不知道的包 我一直在尝试使用标记器 但似乎没有运气 如果您过去处理过类似的情况 您可以发布经过测试且实际有效的代码吗 太感谢了 您可
r
datamining
textmining
从复杂(混合)句子中提取简单句子的算法?
有没有一种算法可以用来从段落中提取简单的句子 我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪 我已经从 Chae Deug Park 等来源对此进行了研究 但没有讨论准备简单的句子作为训练数据 提前致谢 看一眼Apache
NLP
extract
textmining
textextraction
informationextraction
python中使用numpy数组出现内存错误
我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic
python
NumPy
textmining
LDA
topicmodeling
tidytext、quanteda 和 tm 返回不同的 tf-idf 分数
我正在尝试研究 tf idf 加权语料库 我希望 tf 是按文档划分的比例 而不是简单的计数 我希望所有经典文本挖掘库都会返回相同的值 但我得到了不同的值 我的代码中是否存在错误 例如 我是否需要转置对象 或者 tf idf 计数的默认参数
r
textmining
tm
quanteda
tidytext
如何从单词列表中查找 DF 中的匹配单词并在新列中返回匹配的单词[重复]
这个问题在这里已经有答案了 我有一个包含 2 列的 DF 并且有一个单词列表 list of words lt c tiger elephant rabbit hen dog Lion camel horse df lt tibble ti
r
textmining
gensim 的 get_document_topics 方法返回的概率加起来不等于 1
有时它返回所有主题的概率并且一切都很好 但有时它只返回几个主题的概率并且它们加起来不等于一 似乎这取决于文档 一般来说 当它返回很少的主题时 概率加起来大约为 80 那么它只返回最相关的主题吗 有没有办法强制它返回所有概率 也许我遗漏了一些
textmining
gensim
LDA
topicmodeling
R 中带有 tm 包的计数器 ngram
我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本 该脚本适用于单个单词 而不适用于复合词 es 富 酒吧 富酒吧 这是代码 require tm my docs lt c foo ba
r
Dictionary
Frequency
textmining
tm
如何从 csv 文件读取表格中的文本
我是新使用 tm 包 我想读取一个 csv 文件 其中一列包含 2000 个文本 第二列包含因子变量 yes no 到语料库中 我的目的是将文本转换为矩阵并使用因子变量作为预测目标 我还需要将语料库划分为训练集和测试集 我阅读了一些文档 例
r
textmining
tm
使用 R 将复数转换为单数
如何使用 R 将语料库中的复数文本转换为单数 我正在尝试 tm 包 但我找不到任何功能 我尝试过这个函数 但这不能应用于语料库 aggregate plurals lt function v aggro fen lt function v
r
textmining
tm.package:findAssocs 与 Cosine
我是新来的 我的问题是数学问题而不是编程性质 我想就我的方法是否有意义获得第二意见 我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹 尽管它在通过该包提供的数据 例如 纽约时报 和美国国会 上表现得相当不错
r
Math
textmining
tm
cosinesimilarity
使用 nltk 从德语文本中提取单词
我正在尝试从德语文档中提取单词 当我使用 nltk 教程中描述的以下方法时 我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text
python
NLP
NLTK
textmining
1
2
3
4
»