高维最近邻搜索的最佳数据结构

2024-05-13

我实际上正在处理高维数据（~50.000-100.000 个特征），并且必须对其执行最近邻搜索。我知道随着维度的增长，KD 树的性能很差，而且我还了解到，一般来说，所有空间分区数据结构都倾向于对高维数据执行详尽的搜索。

此外，还有两个重要事实需要考虑（按相关性排序）：

精确：必须找到最近的邻居（不是近似值）。
Speed:搜索必须尽可能快。（创建数据结构的时间并不重要）。

所以，我需要一些建议：

执行 k-NN 的数据结构。
如果使用 aNN（近似最近邻）方法会更好，请将其设置得尽可能准确？

我可以在高维空间中进行神经网络搜索吗？

No.由于维数灾难，在较低维度中执行最近邻搜索的数据结构在高维度中表现不佳。事实上，查询时间几乎与暴力破解相同，因此毫无价值。

因此，在高维空间中，人们应该追求近似最近邻（安）搜索。说实话，这是一个must.

哪个数据结构来执行 ANN？

我建议使用 LSH，或者一些 RKD 树。在我的answer https://stackoverflow.com/questions/26641937/two-sets-of-high-dimensional-points-find-the-nearest-neighbour-in-the-other-set/26664557#26664557在这里，我提到了一些在 C++ 中执行 ANN 的优秀库。但是，请注意，LSH 解决了 R 最近邻问题，因此您指定参数 R，它实际上是半径。然后，LSH将从查询点寻找R内部的NN，因此你不能真正请求k NN's.

另一方面，RKD 树可以做到这一点并返回给你kNN的。我有一个项目，它构建了 RKD 树森林并用 C++ 执行 ANN 搜索，但它仅针对高维度。它可以在 1 秒内处理 960 维 10^6 图像的 GIST 数据集，大约 90% 的输出是真正的最近邻。名字是kd-GeRaF https://gsamaras.wordpress.com/projects/#geraf。它将在下个月更新为分布式版本，但它已经经过测试并可以使用。它还有一个可爱的标志。 :)

我也觉得你应该阅读我的answer https://stackoverflow.com/a/26266337/2411320，这表示最佳数据结构取决于数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

高维最近邻搜索的最佳数据结构的相关文章

如果找不到指定的图像文件，显示默认图像的最佳方式？

我有一个普通的电子商务应用程序我将 ITEM IMAGE NAME 存储在数据库中有时经理会拼错图像名称为了避免丢失图像 IE 中的红色 X 每次显示产品列表时我都会检查服务器中是否有与该产品相关的图像如果该文件不存在我会将其
如何关闭整个数据库的区分大小写

我创建了一个包含许多脚本和许多存储过程的数据库在这个数据库中我们没有注意担心区分大小写因为它对于我的本地开发计算机来说是关闭的综上所述我试图弄清楚如何使以下两条语句返回相同的结果 SELECT FROM companies SEL
从文件路径显示图像视图？

我需要仅使用文件名而不是资源 ID 来显示图像 ImageView imgView new ImageView this imgView setBackgroundResource R drawable img1 我在可绘制文件夹中有图像
无论我如何尝试，“netsh wlan startHostednetwork”命令都不起作用

C Windows system32 gt netsh wlan 显示驱动程序接口名称无线网络连接 Driver DW1501 Wireless N WLAN Half Mini Card Vendor Broadcom Provide
ContentDialog Windows 10 Mobile XAML - 全屏 - 填充

我在项目中放置了一个 ContentDialog 用于 Windows 10 上的登录弹出窗口当我在移动设备上运行此项目时 ContentDialog 未全屏显示并且该元素周围有最小的填充在键盘上可见例如在焦点元素文本框上键盘和内
将 r 中的一列从出生日期更改为年龄

我是第一次使用 data table 我的表中有大约 400 000 个年龄的列我需要将它们从出生日期转换为年龄做这个的最好方式是什么我一直在思考这个问题到目前为止对这两个答案都不满意我喜欢用lubridate 就像 KFB 所做
Rails 未定义“2013-03-06”的方法“strftime”：字符串

我收到错误 2013 03 06 的未定义方法 strftime 字符串当尝试使用 strftime 从字符串 2013 03 06 正常显示日期 2013 年 6 月星期日 3 日或类似的日期时在我的 index html erb
除了 Erlang 之外，还有哪些系统是基于“绿色流程”的？

我正在阅读这个信息页面绿线维基百科 http en wikipedia org wiki Green thread我想知道除了 Erlang 之外还有哪些编程系统依赖于绿色进程 Edit 绿线绿色流程基于绿色流程 Erlang
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar
如何从地址簿中获取一个人的电话号码？

我想做的就是让用户从地址簿中选择一个号码我在这个问题中找到了代码如何从地址簿联系人获取电话号码 iphone sdk https stackoverflow com questions 286207 how to get a phone
LifeCycleAware Fragment 中的片段生命周期事件

我有一个生命周期感知片段和一个LifecycleObserver class public class MyFragment extends Fragment Override public void onCreate Nullable B
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单
混合本机/托管可执行文件中的最终托管异常处理程序？

我有一个使用 clr 编译的 MFC 应用程序并且我正在尝试为未捕获的托管异常实现最终处理程序对于本机异常重写CWinApp ProcessWndProcException works 杰夫的书中提到的两个事件代码项目文章 http
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n
如何在 ASP.NET Core 中注入泛型的依赖关系

我有以下存储库类 public class TestRepository Repository
构建 iOS 应用程序后退出代码 1 错误

我正在尝试使用 RestKit 构建我的项目当我构建它时我收到以下错误我尝试使用 Apple LLVM 3 0 和 LLVM GCC 4 2 进行编译两者都产生相同的结果任何人有任何想法是什么导致了这个问题 Ld Users Ji
如何访问我的 Android 程序中的联系人

我正在制作一个短信应用程序并且想要访问我的 Android 应用程序中的联系人我想访问联系人就像他们在实际联系人列表中一样选择后我需要返回到我的活动在其中我可以向该人发送短信或者是否可以访问存储联系人的数据库我的代码如下所示
Google Drive 服务帐户上传的位置

我正在尝试使用服务帐户将文件上传到我的 Google 云端硬盘当我部署此代码时我不希望用户给予授权我希望他们上传到我的帐户我通过 PHP 使用它下面是我到目前为止的情况这段代码是基于官方文档给出的例子当我运行 php 脚本时
使用
和元素作为 JavaScript 代码的输入。这是最好的方法吗？

各位显然我是编码新手所以最近完成了一些有关 HTML 和 Javascript 的 Lynda 课程后我的简单 HTML 页面遇到了困难基本上我想要的是使用 JavaScript 进行基本计算让用户使用 HTML 输入两个数字

随机推荐

使用特定 HTTP 方法链接到页面 (DELETE)

如何像 Rails 那样链接到页面并让浏览器使用 DELETE 方法调用它我试过 a href DELETE ME a 但不起作用我使用 Node js 所以我可以用它来处理 DELETE 方法你不能链接只会触发 GET 请求您可
R ifelse 错误地用整数替换文本

我正在使用 Udacity 课程中的一些数据链接 Reddit 调查回复 https s3 amazonaws com udacity hosted downloads ud651 reddit csv 我试图通过使用单个单词替代替换任何
无法在 Eclipse 中连接到虚拟机

想要改进这篇文章吗提供此问题的详细答案包括引用和解释为什么你的答案是正确的不够详细的答案可能会被编辑或删除当我尝试在 Eclipse 上调试任何项目时我突然开始遇到这个奇怪的错误我不记得有什么改变让这个问题突然出现 Launch
File.delete 上的 Ruby (Errno::EACCES)

我试图在使用完一些 XML 文件后删除它们其中一个文件给了我这个错误 delete Permission denied monthly builds xml Errno EACCES Ruby 声称该文件受到写保护但我在尝试删除它之前设
将此 XML 反序列化为对象的最佳方法

在我见过的与我的类似的其他示例中有一个根节点然后是一个数组节点然后是一堆数组项我的问题是我的根节点is我的数组节点所以我见过的示例似乎不适合我而且我无法更改 XML 架构这是 XML
ASP.Net 的最佳免费文件管理器 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
MySQL 全文搜索之谜

我们的网站上有一个使用 MySQL 全文搜索的简单搜索但由于某种原因它似乎没有返回正确的结果我不知道这是否是 Amazon RDS 我们的数据库服务器所在的位置或我们请求的查询的某种问题这是数据库表的结构 CREATE TABLE
如何在 kivy FileChooser Python 中访问所有硬盘

如何使用 kivy 1 11 1 中的列表视图或图标视图在 kivy FileChooser 中显示系统 C X J 中安装的所有硬盘驱动器我遇到了同样的问题最终通过为驱动器添加快捷方式按钮解决了这个问题我首先使用以下命令获取所有
SQL Server 表中最多可以有多少行

通常我们可以给出更多的值在SQL Server中一个表最多可以有多少行之后我们就无法添加新行了有一些边缘情况除了明显的磁盘空间问题之外 SQL Server 会阻止您添加更多行而不是确切的行数但值得一提你有一个IDENTITY
输出和导出之间的区别

在 CloudFormation 中我们能够从模板输出一些值以便其他进程堆栈等可以检索它们这通常是某个名称可能是 URL 或在堆栈创建部署过程中生成的名称等我们还能够从模板导出返回值作为输出与导出之间有什么区别
指向特定工作表的超链接

我想从另一个电子表格中的超链接打开 Google 表格的特定工作表我的主电子表格中有不同的链接每个链接都应该有一个指向同一从属电子表格但指向不同工作表的超链接我知道超链接功能但它不会转到特定的工作表您可以使用此自定义脚本工具 g
是否存在比 SVN 更快的集中版本控制？

我已经使用 SVN 很长时间了现在我们正在尝试使用 Git 我在这里谈论的不是中心化去中心化的争论我唯一关心的是速度后一个工具要快得多但有时我需要使用一种集中式方法这种方法比分散式方法更简单更简单学习曲线非常快这节省了大
如何防止灯具与 django post_save 信号代码冲突？

在我的应用程序中我想在新用户注册时在某些表中创建条目例如我想创建一个用户配置文件然后该配置文件将引用他们的公司和他们的一些其他记录我用 post save 信号实现了这一点 def callback create profile
在 jquery 中隐藏/显示图像

如何在单击超链接时显示隐藏图像 a href Bandwidth a a href Upload a p align center img src media img close pn p
在CDI容器中手动注册类

我有一组通过反射实例化的类因此它们不由 CDI 容器管理并且上下文不会进行任何注入我的问题是有没有办法在 CDI 上下文中注册这些类以便这些类由上下文管理下面是我创建类的方式 String clazz org myorg thi
使 Django 1.3.1 中的视图缓存过期

我正在尝试使模型上的视图级缓存过期post save 这是通过设置的https docs djangoproject com en 1 3 topics cache from olddocs the per view cache https
amchart 访问结构化数据对象内的值

如何向 AMchart 中的 json 对象添加额外数据当我的 obj 很简单时所有内容都会解析 var data year 1930 italy 4 germany 5 1 uk 3 year 1934 italy 1 germany
C++ 输出到文本文件时换行符[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 这只是一个简单的问题但我正在尝试将
PHP preg_replace - www 或 http://

真正坚持看似简单的事情我有一个聊天框喊叫框其中可能输入任意 URL 我想找到每个单独的 URL 用空格分隔并将其包装在标签中例子 Harry you re a http google com http google com wiz
高维最近邻搜索的最佳数据结构

我实际上正在处理高维数据 50 000 100 000 个特征并且必须对其执行最近邻搜索我知道随着维度的增长 KD 树的性能很差而且我还了解到一般来说所有空间分区数据结构都倾向于对高维数据执行详尽的搜索此外还有两个重要事实需要

高维最近邻搜索的最佳数据结构

高维最近邻搜索的最佳数据结构 的相关文章

随机推荐

热门标签

高维最近邻搜索的最佳数据结构的相关文章