向量排序/唯一/擦除与复制到 unordered_set 的性能

2023-12-05

我有一个函数，可以将网格中点列表的所有邻居获取到一定距离，这涉及大量重复项（我邻居的邻居又==我）。

我一直在尝试几种不同的解决方案，但我不知道哪种更有效。下面是一些代码，演示了两种并行运行的解决方案，一种使用 std::vector sort-unique-erase，另一种使用 std::copy 到 std::unordered_set。

我还尝试了另一种解决方案，即将包含迄今为止邻居的向量传递给邻居函数，该函数将使用 std::find 来确保在添加邻居之前不存在邻居。

三个解决方案，但我无法完全理解哪个会更快。有人有什么想法吗？

代码片段如下：

// Vector of all neighbours of all modified phi points, which may initially include duplicates.
std::vector<VecDi> aneighs;
// Hash function, mapping points to their norm distance.
auto hasher = [&] (const VecDi& a) {
    return std::hash<UINT>()(a.squaredNorm() >> 2);
};
// Unordered set for storing neighbours without duplication.
std::unordered_set<VecDi, UINT (*) (const VecDi& a)> sneighs(phi.dims().squaredNorm() >> 2, hasher);

... compute big long list of points including many duplicates ...

// Insert neighbours into unordered_set to remove duplicates.
std::copy(aneighs.begin(), aneighs.end(), std::inserter(sneighs, sneighs.end()));

// De-dupe neighbours list.
// TODO: is this method faster or slower than unordered_set?
std::sort(aneighs.begin(), aneighs.end(), [&] (const VecDi& a, const VecDi&b) {
    const UINT aidx = Grid<VecDi, D>::index(a, phi.dims(), phi.offset());
    const UINT bidx = Grid<VecDi, D>::index(b, phi.dims(), phi.offset());
    return aidx < bidx;
});
aneighs.erase(std::unique(aneighs.begin(), aneighs.end()), aneighs.end());

这里很大程度上可能取决于输出集的大小（反过来，这又取决于您采样的邻居的距离）。

If it's small, (no more than a few dozen items or so) your hand-rolled set implementation using std::vector and std::find will probably remain fairly competitive. Its problem is that it's an O(N²) algorithm -- each time you insert an item, you have to search all the existing items, so each insertion is linear on the number of items already in the set. Therefore, as the set grows larger, its time to insert items grows roughly quadratically.

Using std::set you each insertion has to only do approximately log₂(N) comparisons instead of N comparison. That reduces the overall complexity from O(N²) to O(N log N). The major shortcoming is that it's (at least normally) implemented as a tree built up of individually allocated nodes. That typically reduces its locality of reference -- i.e., each item you insert will consist of the data itself plus some pointers, and traversing the tree means following pointers around. Since they're allocated individually, chances are pretty good that nodes that are (currently) adjacent in the tree won't be adjacent in memory, so you'll see a fair number of cache misses. Bottom line: while its speed grows fairly slowly as the number of items increases, the constants involved are fairly large -- for a small number of items, it'll start out fairly slow (typically quite a bit slower than your hand-rolled version).

使用向量/排序/唯一结合了前面每种方法的一些优点。将项目存储在向量中（每个项目不需要额外的指针）通常会导致更好的缓存使用 - 相邻索引处的项目也位于相邻的内存位置，因此当您插入新项目时，新项目的位置可能会改变已经在缓存中了。主要缺点是，如果您正在处理一个非常大的集合，这可能会使用更多的内存。当您插入每个项目时，集合会消除重复项（即，只有与集合中已有的项目不同时才会插入项目），这将插入all项，然后最后删除所有重复项。给定当前内存可用性和邻居数量guess您可能正在访问，我怀疑这在实践中是一个主要缺点，但在错误的情况下，它可能会导致严重的问题 - 几乎任何虚拟内存的使用几乎肯定会造成净损失。

从复杂度的角度看最后一个，它的复杂度为 O(N log N)，有点像集合。不同之处在于，对于该集合，它实际上更像是 O(N log M)，其中 N 是邻居的总数，M 是唯一邻居的数量。对于向量，它实际上是 O(N log N)，其中 N 是（同样）邻居的总数。因此，如果重复项的数量非常大，则一组可能具有显着的算法优势。

也可以在纯线性序列中实现类似集合的结构。这保留了集合仅存储唯一项目的优势，而且还保留了向量的参考位置优势。这个想法是保持当前集合的大部分已排序，因此您可以以 log(N) 复杂度搜索它。但是，当您插入新项目时，只需将其放入单独的向量（或现有向量的未排序部分）中。当您进行新插入时，您还会对那些未排序的项目进行线性搜索。

当未排序的部分变得太大（对于“太大”的某些定义）时，您对这些项目进行排序并将它们合并到主组中，然后再次开始相同的序列。如果您根据“log N”（其中 N 是排序组中的项目数）定义“太大”，则整个数据结构的复杂性可以保留 O(N log N)。当我使用它时，我发现未排序的部分可能比我在开始引起问题之前预期的要大。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

向量排序/唯一/擦除与复制到 unordered_set 的性能的相关文章

如何引用 .net 可执行文件中的类？

IL 反汇编程序显示了我想在项目中使用的 Net 可执行文件中的类我如何使用我自己项目中的这些类从 Visual Studio 上的项目添加对该可执行文件的引用您应该有权访问它定义的公共类可执行文件是一个像任何其他程序集一样的程序集
不同翻译单元中字符串文字的内存地址是否相同？

假设我们有以下 cpp 文件 include
使用 c11 标准和 clang 来使用 strcpy_s

我正在运行 OS X Sierra 并尝试编译一个使用的 c 程序strcpy s 但是我安装的 clang 编译器使用的是 c99 标准但是据我读到的 https embeddedgurus com barr code 2017 08
C# SMO 远程数据库备份到本地机器

我有一个执行 SQL 数据库备份和恢复的应用程序这在本地计算机上运行良好但是如果我针对另一台计算机上托管的 SQL 服务器运行此应用程序则会出现以下错误 Microsoft SqlServer Management Smo Faile
使用 R.Net 版本 1.5.5 创建 REngine 实例

我正在尝试创建一个 Hello World 示例R Language using R Net版本1 5 5 从 NuGet 加载不幸的是我见过的在线示例都不起作用这就是我所做的已安装Microsoft R Open 3 2 4 增强
合并多边形的高效算法

我有一个多边形列表在这个列表中一些多边形重叠或者接触其他多边形我的任务是合并所有相互重叠或接触的多边形我有一个union执行此操作的方法做到这一点最有效的方法是什么我目前能想到的是循环遍历多边形列表检查合并列表以查看该多边形
增强缓冲区调用后丢失自定义点类型的数据

我有我自己的观点 class LocationWayPoint public latlong container location WORD index PWeakBasicStation station namespace boost n
在“delete this;”语句期间发生了什么？

请考虑以下代码 class foo public foo foo void done delete this private int x 以下两个选项中发生了什么并且有效吗选项1 void main foo a new foo a gt
ICSharpCode.Decompiler + Mono.Cecil -> 如何为单个方法生成代码？

我可以使用 Mono Cecil 和 ICSharpCode Decompiler 生成类型或程序集的代码但是如果我尝试为单个方法生成代码我将收到错误对象引用未设置为对象的实例你们能给我任何关于这个的提示吗提前感谢您的所有帮助
使用 Rhino Mocks 模拟集合

所以我猜这是很多人想做的事情模拟集合过去我用 Rhino 做过这样的事情 var col mock MockRepository GenerateMock
FxCop 和 GAC 疯狂

当我尝试分析依赖于模式和实践企业库数据以及其他 2 0 0 0 的项目时使用 FxCop FxCop 抱怨它不能定位程序集引用即使正在分析的应用程序 dll 是根据其编译的此版本及其在 GAC 中如果我浏览到 GAC 尝试选择相同
std::istringstream >> 使奇怪的行为加倍

下面的代码打印0在 mac osx 上使用 clang 其他地方都会打印5 clang https ideone com mVgpzS gcc https ideone com oZ0hy6 include
Makefile：如何正确包含头文件及其目录？

我有以下 makefile CC g INC DIR StdCUtil CFLAGS c Wall I INC DIR DEPS split h all Lock o DBC o Trace o o cpp DEPS CC o lt CFL
如何将8字节的十六进制数输入到char数组中？

我想生成以以下开头的十六进制数字序列07060504003020100 下一个数字是0f0e0d0c0b0a0908等等按这个顺序当我使用unsigned long long int并输出数据的前4位这意味着0被截断它打印706050
在运行时生成可执行文件

好吧所以我想知道如何创建一个程序该程序创建第二个程序就像大多数压缩程序如何创建自解压自可执行文件一样但这不是我需要的假设我有 2 个程序每个都包含一个类我将使用一个程序来修改类并用数据填充类第二个文件将是一个也具有该类的程序
是否有普遍接受的 GMP 替代方案来实现任意精度？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案在寻找 BigInt 库的过程中我发现了这篇文章 Microsoft Windows 上的 C 或
通过 C++ 标头在 C++ 和 C# 中使用枚举

我有一个用 C 编写的服务器位于命名管道的末端嗯提供服务可以发送到服务器的命令在位于头文件中的枚举中定义 enum e doThing1 e doThing2 e doLastThing 所需枚举的值被放入发送到服务器的消息的第一个
如何同时正确使用管道和信号？

我有 2 个孩子我想将信号从孩子发送到父母并将答案随机数为什么为什么不命名管道从父母发送到每个孩子我有这个代码 include
从 C# 应用程序调用 ASP.net Web 服务

我有个问题我如何调用 Web 服务并从 C 桌面应用程序获取结果我正在制作一个桌面应用程序我希望它能够连接到我的在线 ASP net Web 服务这怎么可能在解决方案资源管理器中右键单击项目节点并选择添加 Service参
布尔实现的atomicCAS

我想弄清楚是否存在错误答案 https stackoverflow com a 57444538 11248508 现已删除关于Cuda like的实现atomicCAS for bool是答案中的代码重新格式化 static inl

随机推荐

JPEG 图像中的透明背景

如何在 JPEG 图像上设置透明背景这是很多同事的疑问在 Windows 上使用画图的解决方案是什么还有哪些其他简单的替代方案您无法将 JPEG 图像设为透明您应该使用允许透明的格式例如 GIF 或 PNG 画图将打开这些文件
无法更改 IOS 上的 .NET MAUI Blazor 启动屏幕

我尝试遵循有关 NET MAUI 启动画面的所有可用教程但我无法让我的应用程序显示自定义启动画面重现问题的步骤在 PC 上打开 Microsoft Visual Studio 2022 创建新的 NET MAUI Blazor 应用程
有没有办法从 WordPress 的链接生成中排除域

我有一个在 domain com 上响应的网站即将x domain com or y domain com应该产生相同的网页我不知道是什么但它是重要的信息因为我们根据它来跟踪事物当迁移到 WordPress 时我们遇到了一个非
未使用 MS_SQL JDBC 为存储过程定义参数 @x

我正在尝试在方法中使用 SQL Server JDBC 执行存储过程 Connection connection String sp name Map
ASP MVC 日期时间验证错误

在 asp net MVC 5 中我有一个显示来自 DTO 对象的数据的表单 public class FieldDTO DataType DataType DateTime DisplayFormat ApplyFormatInEdit
使用 GetText 从剪贴板获取文本 - 避免空剪贴板上出现错误

我正在使用这样的代码从剪贴板获取文本 Dim DataObj As New MSForms DataObject DataObj GetFromClipboard myString DataObj GetText 我使用错误处理来解决剪贴板
如何设置地址簿访问请求警报视图的文本？

I know that in iOS 6 we should request the access to contacts first like below 但现在我想知道如何在警报视图中添加详细消息就在警报标题和两个按钮之间我确实看到
重写成员时违反了继承安全规则 - SecurityRuleSet.Level2

我有一个继承自 Exception 的类在 NET 4 中我开始收到运行时错误违反继承安全规则同时重写成员 MyBusinessException GetObjectData System Runtime Serialization
Xbox 上的 UWP 应用

在围绕 Windows 10 的活动和促销期间我总是看到 UWP 应用程序可以在 Microsoft 系列的所有设备上运行为了确认这一点当我在浏览器上浏览 UWP 应用程序并单击以查看应用程序页面的源代码时我能够看到以下元数据那
Doctrine MongoDB 通过 id 查找

我正在使用 odm mongo 原则我必须记录类 class Thing MongoDB Id protected id MongoDB ReferenceOne targetDocument Bundle1 Other protecte
将新号码添加到 ABAddressBook 中的现有 ABRecord - iPhone

我正在尝试通过我的应用程序更新地址簿中现有联系人的内容但不需要用户界面场景是这样的 1 用户输入号码和姓名 2 应用程序检查该姓名是否在联系人列表中 3 如果是则检查该号码是否是该姓名的联系人之一 4 如果没有则将其添加到该名称中
PHP array_push 将一个数组推入另一个数组

我需要使用 array push 或类似的东西在另一个数组中添加一个数组我想要实现的目标将如下所示 years array 2017 gt array Value01 Value02 2016 gt array Value03 在另一个数
如何使用Java将字符串中单词的第一个字母大写？

示例字符串 one thousand only two hundred twenty seven 如何更改字符串的第一个字符为大写字母而不更改任何其他字母的大小写更改后应该是 One thousand only Two hundred T
Node js multer 文件上传不起作用。 req.file 和 req.files 始终未定义

我正在尝试将文件上传到我的服务器但是req file and req files在我的 POST REST 端点上始终未定义我尝试上传的内容是 dat 文件我期待 json 响应这是我的代码服务器端 var express req
如何更改iphone sdk中的日期格式

我收到来自 Webservices Date 的响应例如 2012 08 17T00 00 00 我只想显示日期例如 17 08 2012 如何更改日期格式并删除该时间 String froms web service ws NSStr
创建一个快捷方式，并将参数添加到程序路径中

这是代码如果我右键单击新的 Lnk 并删除引号它就可以工作 from C Windows System32 control exe name Microsoft Windowsupdate to C Windows System32 c
纯 Ajax 请求和传统 Ajax 请求是否可以在本机/混合移动应用程序上实现？

我知道使用 JSONP 技术http en wikipedia org wiki JSONP我们可以做一个跨域的 Ajax 请求但对于这个问题来说这并不算纯粹和传统我只是想知道本机混合应用程序是否也适用同源策略 http en
Clearcase：如何将特定文件从一个视图合并到另一个视图中，以避免出现“邪恶双胞胎”场景？

我有一个文件需要放入不同的分支我如何从命令行执行此操作一切似乎都适合合并其中文件已经存在于两个分支中您必须先合并父目录以便文件显示在目标分支的目录中此时新文件的大小将为零然后您可以合并文件本身执行这两项操作的最简单方法是通
通过局域网连接到 Visual Studio 调试 IIS Express 服务器

我有一个在 VS2012 中开发的测试 ASP NET MVC3 应用程序当我开始调试时通过请求从主机访问应用程序http localhost
向量排序/唯一/擦除与复制到 unordered_set 的性能

我有一个函数可以将网格中点列表的所有邻居获取到一定距离这涉及大量重复项我邻居的邻居又我我一直在尝试几种不同的解决方案但我不知道哪种更有效下面是一些代码演示了两种并行运行的解决方案一种使用 std vector sort u

向量排序/唯一/擦除与复制到 unordered_set 的性能

向量排序/唯一/擦除与复制到 unordered_set 的性能 的相关文章

随机推荐

热门标签

向量排序/唯一/擦除与复制到 unordered_set 的性能的相关文章