informationretrieval

如何使用 tf-idf 选择停用词？（非英语语料库）

我已经成功评估了tf idf 函数 http en wikipedia org wiki Tf idf对于给定的语料库如何找到每个文档的停用词和最佳词据我所知给定单词和文档的 tf idf 较低意味着它不是选择该文档的好单词停用词是

informationretrieval textmining stopwords tfidf

Lucene 的 StopFilter 中使用的默认停用词列表是什么？

Lucene 有一个默认的 stopfilter http lucene apache org core 4 0 0 analyzers common org apache lucene analysis core StopFilter h

Java apache Lucene informationretrieval stopwords

非英语单词的词形还原？

我想应用词形还原来减少单词的屈折形式我知道对于英语 WordNet 提供了这样的功能但我也对对荷兰语法语西班牙语和意大利语单词应用词形还原感兴趣有没有可靠且可靠的方法来解决这个问题谢谢你 Try pattern来自 CLIPS

python NLTK informationretrieval informationextraction lemmatization

TFIDF 计算混淆

我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不

python datamining textprocessing informationretrieval tfidf

在 python 中快速/优化 N-gram 实现

python 中哪种 ngram 实现速度最快我试图分析 nltk 与 scott 的 zip http locallyoptimal com blog 2013 01 20 elegant n gram Generation in py

python NLP NLTK informationretrieval NGram

针对 DBPedia 的 SPARQL 查询以获取项目的所有属性值

我是语义网新手我想使用 SPARQL 查询从 DBPedia 检索 apple 的所有属性值对下面我写了查询http dbpedia org sparql http dbpedia org sparql编辑器但它没有返回任何结果你能

sparql semanticweb dbpedia informationretrieval

如何检测文本文档之间的重复项并返回重复项的相似度？

我正在编写一个爬虫来从某个网站获取内容但是内容可以重复我想要以避免这种情况所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例文本 1 我正在编写一个爬虫文本2 我正在编写一些文本爬虫来获取比较函数

Algorithm informationretrieval textanalysis

如何创建更复杂的 Lucene 查询字符串？

这个问题是从this https stackoverflow com questions 532365 how to get more out of lucene net问题我的询问有两个方面但因为两者都是相关的所以我认为将它们放在一

Lucene fulltextsearch lucenenet informationretrieval

返回我的时间线中的所有推文

我希望返回我在时间线上发布的所有推文我正在使用Linq 到 Twitter https linqtotwitter codeplex com wikipage title Querying 20the 20User 20Timeline图

c informationretrieval linqtotwitter

维基百科文本下载

我正在寻找为我的大学项目下载完整的维基百科文本我是否必须编写自己的蜘蛛才能下载此内容或者是否有在线维基百科的公共数据集为了给你一些我的项目的概述我想找出我感兴趣的几篇文章中有趣的单词但是为了找到这些有趣的单词我计划应用 tf i

Text wikipedia webcrawler informationretrieval

文本文件的信息增益计算？

我正在尝试使用信息增益 PCA 和遗传算法进行文本分类但表演完之后预处理词干提取停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID

Java datamining informationretrieval textmining

使用 python 有效提取 1-5 克

我有一个 3 000 000 行的巨大文件每行有 20 40 个单词我必须从语料库中提取 1 到 5 个 ngram 我的输入文件是标记化的纯文本例如 This is a foo bar sentence There is a com

python NLP NLTK informationretrieval NGram

从头开始构建一个快速的私人文章语义MySQL搜索引擎

我正在开展一个项目其中涉及全文 and semantic搜索网站内的文章如果无法合并用户可以选择任一选项这些文章是订阅式的只有登录后才能搜索因此外部搜索引擎或其 API 无法访问它们我读过有关狮身人面像的文章 http www

php mysql fulltextsearch searchengine informationretrieval

存储倒排索引

我正在从事一个关于信息检索的项目我使用 Hadoop Python 制作了完整倒排索引 Hadoop 将索引输出为写入文件的单词文档列表对为了快速访问我使用上面的文件创建了一个字典哈希表我的问题是如何在磁盘上存储这样一个具

python informationretrieval invertedindex

用于查找给定文档的词频的 Python 脚本

我正在寻找一个简单的脚本可以找到给定文档的单词频率可能通过使用便携式词干分析器是否有任何库或简单的脚本可以执行此过程 use nltk http www nltk org import nltk YOUR STRING Your wo

python informationretrieval

文档与多个关键字的相关性

Suppose D是一个文本文档并且 K lt k1 kN gt 表示文档中包含的一组术语例如 D What a wonderful day isn t it K lt wonderful day gt 我的目标是看看文件是否D谈论中的

Document informationretrieval keywordsearch

使用 C++ 和 openframeworks 的 Color 图像检索系统

我正在用 C 和 openFrameworks 编写一个程序希望能够通过颜色匹配来实现图像检索系统我有一个算法可以通过 RGB 值在数据库中查找匹配项例如如果我的计算机上有一个包含 1000 张图片的数据库并且我有一个查询 rgb

c database informationretrieval openframeworks

获取整个索引中的总词频 (Elasticsearch)

我试图计算特定术语在整个索引中出现的总次数术语收集频率我尝试通过使用术语向量来做到这一点但这仅限于单个文档即使在指定文档中存在术语的情况下响应似乎在某个 doc count 在 field statistics 内处达到最大值

elasticsearch informationretrieval

信息检索中的语言模型

我在 IR 工作任何人都可以指导我我该如何实现语言模型Whoosh 我已经应用了TD IDF和BM25 我是红外新手例如最简单形式的语言模型只是丢弃所有条件上下文并独立估计每个术语这样的模型称为一元语言模型 P uni t 1t

python informationretrieval whoosh

创建巨大倒排索引的方法

I want to create a big inverted index of around 106 terms What method would you suggest I m thinking in fast binary key

database informationretrieval invertedindex