最近邻检索（NN）和近似最近邻（ANN）检索

2023-11-17

文章目录

1. 最近邻检索（Nearest Neighbor Search）

1.1 概述

最近邻检索就是根据数据的相似性，从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离，可以认为数据在空间中的距离越近，则数据之间的相似性越高。

k最近邻（K-Nearest Neighbor，K-NN）检索：当需要查找离目标数据最近的前k个数据项时。

最近邻检索是线性复杂度的，不能满足对于大规模数据检索的时间性能要求。

1.2 应用领域

起初应用于文档检索系统，最近邻检索作为具有查找相似性文档信息的方法；
随后在地理信息系统中，最近邻检索也被广泛应用于位置信息，空间数据关系的查询、分析与统计；
如今在图像检索、数据压缩、模式识别以及机器学习等领域都有非常重要的作用。
在图像处理与检索的研究中，基于内容的图像检索方法（CBIR）是目前的主流。

这里的“内容”是指：图像中包含的主要对象的几何形状、颜色强度、表面纹理等外在特性，以及前景与后景的对比程度等整体特征。这里的“内容”是指图像中包含的主要对象的几何形状、颜色强度、表面纹理等外在特性，以及前景与后景的对比程度等整体特征。

图像的描述方式：局部特征描述子（SIFT、SURF、BRIEF），全局特征描述子（GIST），特征频率直方图，纹理信息，显著性区域等。

最近邻检索的引入将图像检索转化到特征向量空间，通过查找与目标特征向量距离最近的向量来获得相应图像之间的关系。这种特征向量之间的距离通常被定义为欧几里得距离（Euclidean distance)，即是空间中两点之间的直线距离。

2. 最近邻检索的发展

最近邻检索作为数据检索中使用最为广泛的技术一直以来都是国内外学者研究的热点。近些年，涌现出大量以最近邻检索或近似最近邻检索为基本思想的两类方法。一类是基于提升检索结构性能的方法，主要方法大多基于树形结构；另一类主要基于对数据本身的处理，包括哈希算法、矢量量化方法等。

2.1 精确检索

背景：精确检索中数据维度一般较低，所以会采用穷举搜索，即在数据库中依次计算其中样本与所查询数据之间的距离，抽取出所计算出来的距离最小的样本即为所要查找的最近邻。当数据量非常大的时候，搜索效率急剧下降。
基于树结构的最近邻检索方法

概述：由于实际数据会呈现出簇状的聚类形态，因此可以考虑对数据库中的样本数据构建数据索引，索引树就是最常见的方法。其基本思想是对搜索空间进行层次划分，再进行快速匹配。

结论：当数据维度不太高（如d< 20)，通常采用树型索引结构对数据进行分区以实现高效索引，如最经典的KD树算法、R树、M树等等，它们的时间和空间复杂度都是以d为指数的指数级别的，在实际搜索时也取得了良好的效果。

当d=1时，只要采用传统的二分查找法或者各类平衡树就能找到最近邻；
当d=2时，将最近邻检索问题转化为求解查询点究竟落在哪个区域的Voronoi图问题，再通过二分查找树就能很好的解决。

2.2 近似检索

背景：面对庞大的数据量以及数据库中高维的数据信息，现有的基于 NN 的检索方法无法获得理想的检索效果与可接受的检索时间。因此，研究人员开始关注近似最近邻检索（Approximate Nearest Neighbor，ANN）。
概述

近似最近邻检索利用数据量增大后数据之间会形成簇状聚集分布的特性，通过对数据分析聚类的方法对数据库中的数据进行分类或编码，对于目标数据根据其数据特征预测其所属的数据类别，返回类别中的部分或全部作为检索结果。

近似最近邻检索的核心思想：搜索可能是近邻的数据项而不再只局限于返回最可能的项目，在牺牲可接受范围内的精度的情况下提高检索效率。
分类
一种是采用哈希散列的办法，另一种则是矢量量化。

3.1 局部敏感哈希（LSH）
核心思想：在高维空间相邻的数据经过哈希函数的映射投影转化到低维空间后，他们落入同一个吊桶的概率很大而不相邻的数据映射到同一个吊桶的概率则很小。在检索时将欧式空间的距离计算转化到汉明（Hamming）空间，并将全局检索转化为对映射到同一个吊桶中的数据进行检索，从而提高了检索速度。这种方法的主要难点在于如何寻找适合的哈希函数。

3.2 矢量量化
其代表是乘积量化（PQ）。它的主要思想是将特征向量进行正交分解，在分解后的低维正交子空间上进行量化，由于低维空间可以采用较小的码本进行编码，因此可以降低数据存储空间。

PQ方法采用基于查找表的非对称距离计算(Asymmetric Distance Computation，ADC)快速求取特征向量之间的距离，在压缩比相同的情况下，与采用汉明距离的二值编码方法，采用ADC的PQ方法的检索精度更高。

参考文献

最近邻检索的简单综述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CrossModal retrieval

最近邻检索（NN）和近似最近邻（ANN）检索的相关文章

np.where()函数的详细使用介绍

看了很多博客见到的没有一个给说清楚了这里做个记录这是python提供的函数说明 Help on function where in module numpy where where condition x y Return eleme
linux man php,linux man命令的使用

linux man命令的使用 main 是最常见的帮助命令也是 Linux 最主要的帮助命令其基本信息如下命令名称 man 英文原意 format and display the on line manual pages 所在路径 u
第二个电商项目Bug点统计和解决方法

第二个完成的项目在完成项目后我总结了那些自己感觉重要的BUG 1 BUG系列一设置延时导致Activity销毁后延时中的PullToRefreshListView 为null Bug现象 Bug 85536 在网络不好情况下快速
Nuitka 和 PyInstaller 对比

一什么是 Nuitka 和 PyInstaller 1 1 Nuitka Nuitka 是一个 Python 编译器可以将 Python 代码转换成可执行的 C 代码然后将其编译成本机可执行文件与常规的 Python 解释器相比使
8.3 PowerBI系列之DAX函数专题-矩阵Matrix中高亮显示最大最小值

需求用颜色标量年度最大最小值用颜色标示折线的最大值最小值实现在条件格式规则基于字段进行计算度量值 is max min var displayed data calculatetable addcolumns summariz
坚持天天写技术笔记

恍恍惚惚
用C语言编写一段堆排序算法

include
同步、异步和阻塞、非阻塞的区别与联系

同步异步和阻塞非阻塞的概念同步在执行一个操作的时候需要等待当前操作执行完毕才能执行下一操作相当于操作串行化即执行当前函数的时候需要拿到当前函数的返回结果才可以继续执行异步在执行一个操作的时候不需要拿到返回结果只需要拿到注册
程序员必备的免费AI生产力(摸鱼)工具，最后一个，人手必备

最近ChatGPT等AI技术风靡全球对于普通大众来说越来越多的人开始关注智能时代对我们生活的影响它颠覆了写作办公绘画音视频图像处理 UI 设计等领域并涌现出了一批具有颠覆性的应用在程序员领域许多 AI 工具已经涌现如
Android fragment间的通讯

1 使用FragmentPagerAdapter情况下 param viewpagerId viewpager id eg R id vp param position fragment 的位置 return private Fragmen
linux线程内存开销

1 首先是线程自己栈程序没设置过就是默认的 ulimit s 中的值现在一般都是10240 单位KB 2 跟版本有关是否有 glibc 的 malloc per thread arenas 特性有了这个特性设置不好一个新线程要
2003 - Cant't connect to MySQL server on 'ip'(10060 "Unknown error")

问题描述今天在搭建服务器之后安装好MySQL 启动成功并且创建远程连接用户用户名和密码都正确使用Navicat远程连接抛出如下错误 2003 Cant t connect to MySQL server on 192 168 13
Go module的介绍及使用

Go1 1 1版本发布 2018 08 24发布已经过去几天从官方的博客中看到有两个比较突出的特色一个就是今天讲的module 模块概念目前该功能还在试验阶段有些地方还需要不断的进行完善在官方正式宣布之前打算不断修正这种支持
牛客网：美团2021校招笔试-编程题(通用编程试题,第10场）

某比赛已经进入了淘汰赛阶段已知共有n名选手参与了此阶段比赛他们的得分分别是a 1 a 2 a n 小美作为比赛的裁判希望设定一个分数线m 使得所有分数大于m的选手晋级其他人淘汰但是为了保护粉丝脆弱的心脏小美希望晋级和淘汰的人数均在
Vivido添加pynq-Z2开发板

一下载pynq z2开发板文件下载地址 https www tulembedded com FPGA ProductsPYNQ Z2 html 二将下载的文件解压到vivado安装的位置如果boards目录下面没有boards fi
软件测试自动化UI框架之生成测试报告

设置报告自动化测试最后的运行结果要以报告的形式呈现报告的格式是web端网页需要引入第三方库不是唯一的有很多一般一个公司统一用一个 1 引入自动生成测试框架报告 2 创建测试报告生成文件夹 reports 3 写代码框架的入口文
UE4开发七：UE4打包

一使用UFE打包 UFE Unreal Frontend 虚幻前端简化加快游戏开发及测试任务的工具它可以用来准备游戏构建将游戏部署到设备上并进行启动测试版本 4 18为例注意 UE4官方文档原话是在UE4编辑器中启动UFE或者P
java并发编程笔记（四）--JMM内存模型

1 计算机结构输入设备就是我们的鼠标键盘存储器对应的就是我们的内存缓存运算器和控制器共同组成了cpu 而输出设备就比如显示屏打印机我们重点来聊一下缓存 2 缓存其实当我们说计算机运行效率低下速度慢往往不是cpu的锅

随机推荐

Qt: QStringList去除重复元素

项目中有个需求有一个Qt字符串列表里面有一些元素是重复的要求去除只留下不重复的元素方法如下 QStringList distin QStringList list A B C D B B E B E C for int i 0 i
Redis(三)

一 SpringBoot与Redis集成 1 引入依赖
数组去重--根据ID去除数组中重复的数据

根据ID去除数组中重复的数据 let data id 1 name 你好 id 1 name 你好 let obj let peon data reduce item index gt obj index id obj index id t
使用js完成定时弹出广告设置
[485]python识别验证码系列3(基于机器学习)

基于python语言的tensorflow的端到端的字符型验证码识别 1 Abstract 验证码 CAPTCHA 的诞生本身是为了自动区分自然人和机器人的一套公开方法但是近几年的人工智能技术的发展传统的字符验证已经形同虚设
Java系列笔记(3) - Java 内存区域和GC机制

目录 Java垃圾回收概况 Java内存区域 Java对象的访问方式 Java内存分配机制 Java GC机制垃圾收集器 Java垃圾回收概况 Java GC Garbage Collection 垃圾收集垃圾回收机制是Java与C
Ubuntu云原生环境安装，docker+k8s+kubeedge（亲测好用）

docker安装步骤 Linux 一移除以前docker相关包 sudo apt get autoremove docker docker ce docker engine docker io containerd runc 二设置存储
概率与计算机论文,概率归纳逻辑分析论文

摘要从穆勒等人对或然性的探讨经耶方斯对概率归纳逻辑的开创到卡尔纳普代表的现代概率归纳逻辑体系考察了概率归纳逻辑的发展历程从中揭示其兴起的原因并分析现代归纳逻辑发展的一些新趋势关键词概率归纳逻辑概率论概率归纳逻辑旨在以数
字符串应用-实现KMP匹配算法

题目描述给定一个主串S和子串P 使用KMP算法查找子串P在主串S中存在的位置若子串P在主串S中存在则输出与子串P中第一字符相等的字符在主串S中的序号若不存在则输出 no 程序输入格式主串S 子串P 程序输出格式输出与子串P中第一
Linux三剑客之awk命令详解

目录一 awk常见用法二案例 2 1 awk中 F的使用 2 2 awk中几个特殊的内部变量用法三实战案例一 awk常见用法通常情况下awk所使用的命令格式如下其中单引号家伙是那个大括号用于设置对于数据进行的处理动作
HDFS DataNode高密度存储机型的探索尝试

前言随着公司业务的发展我们需要存储越来越庞大的数据来支撑公司业务的发展这里就涉及到了数据存储能力的问题需要存储的数据越多其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity 但是机器数量的变多另外一方面带来的则是
Android Studio获取系统级签名方式

android sharedUserId android uid system 系统签名通过sharedUserId 拥有同一个User id的多个APK可以配置成运行在同一个进程中那么把程序的UID配成android uid syst
CAS与ABA问题

在JDK 5之前Java语言是靠synchronized关键字保证同步的这会导致有锁机制存在以下问题 1 在多线程竞争下加锁释放锁会导致比较多的上下文切换和调度延时引起性能问题 2 一个线程持有锁会导致其它所有需要此锁的线程挂起 3
Python爬虫到入门只需要三个月

如何入门Python 为了能够帮助大家更轻松的学好Python开发 Python爬数据 Python数据分析等相关理论知识给大家共同分享自己一套Python学习生活资料文章最后面的有附属的相关资料无论你是大牛还是小白是想转行还是想入
C语言-扫雷游戏程序设计

文章目录一问题要求 1 问题描述 2 程序的功能二基本要求 1 要求分析 2 需求分析四设计概要 1 程序的设计概要 2 程序的主要流程 1 设置棋盘 2 布地雷五用户说明六测试结果 1 运行结果说明 2 测试结论七
区块链基本加密概念

什么是区块链目前狭义就任务就是一个超级账本区块链可以用来做什么可以用来无障碍的置换既然是用来交易的那么我们就要有一个地址存放我的资产地址举例比特资产地址一个比特币地址由两部分组成一部分是公钥哈希值经过Base58check
面试：Spring&SpringMVC&Mybatis 面试必备面试题

Spring SpringMVC Mybatis常见面试题历史文章多线程史上最全面试题持续更新中 dubbo zookeeper55道高频面试题附加答案 SpringCloud SpringBoot经典面试题附加答案 Spring
linux进程snprintf函数功能,linux 之 snprintf函数用法

int snprintf char restrict buf size t n const char restrict format 函数说明最多从源串中拷贝n 1个字符到目标串中然后再在后面加一个0 所以如果目标串的大小为n 的话将
MapReduce实现TopN的效果

1 背景最近在学习Hadoop的MapReduce 此处记录一下如何实现 TopN 的效果以及在MapReduce中如何实现自定义分组 2 需求我们有一份数据数据中存在如下3个字段订单编号订单项和订单项价格输出的数据需求如
最近邻检索（NN）和近似最近邻（ANN）检索

文章目录 1 最近邻检索 Nearest Neighbor Search 1 1 概述 1 2 应用领域 2 最近邻检索的发展 2 1 精确检索 2 2 近似检索参考文献 1 最近邻检索 Nearest Neighbor Search 1