Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
创建巨大倒排索引的方法
I want to create a big inverted index of around 106 terms What method would you suggest I m thinking in fast binary key
database
informationretrieval
invertedindex
编写一个程序来抓取论坛
我需要编写一个程序来抓取论坛 我应该使用 Scrapy 框架用 Python 编写程序还是应该使用 Php cURL 还有与 Scrapy 相当的 Php 吗 Thanks 我会选择 Python 因为它具有卓越的 libxml2 绑定 特
php
python
informationretrieval
Scrapy
webscraping
如何使用 Scipy 处理巨大的稀疏矩阵构造?
因此 我正在处理维基百科转储来计算大约 5 700 000 个页面的页面排名 这些文件经过预处理 因此不是 XML 格式 它们取自http haselgrove id au wikipedia htm http haselgrove id
scipy
datamining
sparsematrix
informationretrieval
PageRank
日期时间格式的动态正则表达式
是否有现有的解决方案可以根据给定的日期时间格式模式动态创建正则表达式 支持的日期时间格式模式并不重要 JodaDateTimeFormat java text SimpleDateTimeFormat或其他 作为一个具体示例 对于给定的日期
regex
datetime
informationretrieval
关于如何衡量IR评估的排名、AP、MAP、召回率的一些想法和方向
我有关于如何评估信息检索结果好坏的问题 例如计算 相关文档的Rank Recall Precision AP MAP 目前 一旦用户输入查询 系统就能够从数据库中检索文档 问题是我不知道如何做评估 我得到了一些公共数据集 例如 克兰菲尔德集
informationretrieval
Evaluation
informationextraction
使用 GENSIM 进行 RAKE
我正在尝试计算相似度 首先 我使用 RAKE 库从爬行的作业中提取关键字 然后我将每个作业的关键字放入单独的数组中 然后将所有这些数组组合到 documentArray 中 documentArray 愤怒 命令 自信 平易近人 适应性 真
python
rake
informationretrieval
gensim
cosinesimilarity
根据余弦相似度值进行聚类
我从一组 URL 中提取了单词 并计算了每个 URL 内容之间的余弦相似度 而且我还标准化了 0 1 之间的值 使用最小 最大 现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL 哪种聚类算法最合适 请建议我一种动态聚类
URL
NLP
clusteranalysis
informationretrieval
通过 youtube api 检索视频的公共统计数据
可以获取视频的公开统计数据吗 使用这样的东西我可以获得视频的总观看次数和点赞数 https www googleapis com youtube v3 videos part statistics key API KEY id ekzHIo
statistics
youtubeapi
informationretrieval
有没有一个搜索引擎可以直接给出答案? [关闭]
Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 我一直想知道这个问题有一段时间了 我不明白为什么谷歌还没有尝试过 或者也许他们已经尝试过 但我只是不知道 有没有一个搜索引擎 您可以在其中输入一个问
Search
NLP
searchengine
informationretrieval
nlpquestionanswering
使用 Lucene 增强新文档
Lucene 是否提供了增强新文档的方法 例如 假设 Lucene 文档包含一个日期字段 是否有可能在用户不改变其查询的情况下 以更高的分数呈现最新的文档 我不想诉诸粗略的 按日期排序 解决方案 因为它将完全取消评分算法 您可以看到 Luc
Java
Lucene
informationretrieval
为什么 Lucene 不支持对现有文档进行任何类型的更新
我的用例涉及索引 Lucene 文档 然后在将来的多个场合添加指向此现有文档的术语 而无需为每个新术语删除并重新添加整个文档 因为性能 并且不保留原始术语 我确实知道文档无法真正更新 我的问题是why 或者更准确地说 为什么不支持所有形式的
Java
Search
Lucene
immutability
informationretrieval
有没有可以让我按图像搜索的 API?
我有一张图片 我想搜索看看它是什么 有可用的 API 吗 我相信有不少 您想要搜索基于内容的图像检索 CBIR 维基百科有一个页面CBIR 引擎 包括广泛的开源列表 例如 isk守护进程 and LIRE都是开源 CBIR 库 isk da
image
API
informationretrieval
contentbasedretrieval
«
1
2