informationretrieval

创建巨大倒排索引的方法

I want to create a big inverted index of around 106 terms What method would you suggest I m thinking in fast binary key

database informationretrieval invertedindex

我需要编写一个程序来抓取论坛我应该使用 Scrapy 框架用 Python 编写程序还是应该使用 Php cURL 还有与 Scrapy 相当的 Php 吗 Thanks 我会选择 Python 因为它具有卓越的 libxml2 绑定特

php python informationretrieval Scrapy webscraping

因此我正在处理维基百科转储来计算大约 5 700 000 个页面的页面排名这些文件经过预处理因此不是 XML 格式它们取自http haselgrove id au wikipedia htm http haselgrove id

scipy datamining sparsematrix informationretrieval PageRank

是否有现有的解决方案可以根据给定的日期时间格式模式动态创建正则表达式支持的日期时间格式模式并不重要 JodaDateTimeFormat java text SimpleDateTimeFormat或其他作为一个具体示例对于给定的日期

regex datetime informationretrieval

我有关于如何评估信息检索结果好坏的问题例如计算相关文档的Rank Recall Precision AP MAP 目前一旦用户输入查询系统就能够从数据库中检索文档问题是我不知道如何做评估我得到了一些公共数据集例如克兰菲尔德集

informationretrieval Evaluation informationextraction

我正在尝试计算相似度首先我使用 RAKE 库从爬行的作业中提取关键字然后我将每个作业的关键字放入单独的数组中然后将所有这些数组组合到 documentArray 中 documentArray 愤怒命令自信平易近人适应性真

python rake informationretrieval gensim cosinesimilarity

我从一组 URL 中提取了单词并计算了每个 URL 内容之间的余弦相似度而且我还标准化了 0 1 之间的值使用最小最大现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL 哪种聚类算法最合适请建议我一种动态聚类

URL NLP clusteranalysis informationretrieval

可以获取视频的公开统计数据吗使用这样的东西我可以获得视频的总观看次数和点赞数 https www googleapis com youtube v3 videos part statistics key API KEY id ekzHIo

statistics youtubeapi informationretrieval

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我一直想知道这个问题有一段时间了我不明白为什么谷歌还没有尝试过或者也许他们已经尝试过但我只是不知道有没有一个搜索引擎您可以在其中输入一个问

Search NLP searchengine informationretrieval nlpquestionanswering

Lucene 是否提供了增强新文档的方法例如假设 Lucene 文档包含一个日期字段是否有可能在用户不改变其查询的情况下以更高的分数呈现最新的文档我不想诉诸粗略的按日期排序解决方案因为它将完全取消评分算法您可以看到 Luc

Java Lucene informationretrieval

我的用例涉及索引 Lucene 文档然后在将来的多个场合添加指向此现有文档的术语而无需为每个新术语删除并重新添加整个文档因为性能并且不保留原始术语我确实知道文档无法真正更新我的问题是why 或者更准确地说为什么不支持所有形式的

Java Search Lucene immutability informationretrieval

我有一张图片我想搜索看看它是什么有可用的 API 吗我相信有不少您想要搜索基于内容的图像检索 CBIR 维基百科有一个页面CBIR 引擎包括广泛的开源列表例如 isk守护进程 and LIRE都是开源 CBIR 库 isk da

image API informationretrieval contentbasedretrieval