如何避免 OrderBy - 内存使用问题

2024-05-08

假设我们有一个很大的点列表List<Point> pointList（已存储在内存中）其中每个Point包含 X、Y 和 Z 坐标。

现在，我想选择存储在中的所有点中具有最大 Z 值的 N% 点pointList。现在我正在这样做：

N = 0.05; // selecting only 5% of points
double cutoffValue = pointList
    .OrderBy(p=> p.Z) // First bottleneck - creates sorted copy of all data
    .ElementAt((int) pointList.Count * (1 - N)).Z;

List<Point> selectedPoints = pointList.Where(p => p.Z >= cutoffValue).ToList();

但我这里有两个内存使用瓶颈：第一个是在 OrderBy 期间（更重要），第二个是在选择点期间（这不太重要，因为我们通常只想选择少量的点）。

有没有什么方法可以用使用更少内存的东西替换 OrderBy （或者可能是找到这个截止点的其他方法）？

这个问题非常重要，因为 LINQ 复制整个数据集，对于我正在处理的大文件，有时会达到数百 MB。

编写一个方法，迭代列表一次并维护一组 M 个最大元素。每个步骤只需要 O(log M) 工作来维护集合，并且您可以拥有 O(M) 内存和 O(N log M) 运行时间。

public static IEnumerable<TSource> TakeLargest<TSource, TKey>
    (this IEnumerable<TSource> items, Func<TSource, TKey> selector, int count)
{
    var set = new SortedDictionary<TKey, List<TSource>>();
    var resultCount = 0;
    var first = default(KeyValuePair<TKey, List<TSource>>);
    foreach (var item in items)
    {
        // If the key is already smaller than the smallest
        // item in the set, we can ignore this item
        var key = selector(item);
        if (first.Value == null ||
            resultCount < count ||
            Comparer<TKey>.Default.Compare(key, first.Key) >= 0)
        {
            // Add next item to set
            if (!set.ContainsKey(key))
            {
                set[key] = new List<TSource>();
            }
            set[key].Add(item);
            if (first.Value == null)
            {
                first = set.First();
            }

            // Remove smallest item from set
            resultCount++;
            if (resultCount - first.Value.Count >= count)
            {
                set.Remove(first.Key);
                resultCount -= first.Value.Count;
                first = set.First();
            }
        }
    }
    return set.Values.SelectMany(values => values);
}

这将包括超过count元素（如果存在联系），就像您现在的实现一样。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

LINQ

memory

sqlorderby

如何避免 OrderBy - 内存使用问题的相关文章

计算 XML 中特定 XML 节点的数量

请参阅此 XML
如何捕获未发送到 stdout 的命令行文本？

我在项目中使用 LAME 命令行 mp3 编码器我希望能够看到某人正在使用什么版本如果我只执行 LAME exe 而不带参数我会得到例如 C LAME gt LAME exe LAME 32 bits version 3 98 2
代码 GetAsyncKeyState(VK_SHIFT) & 0x8000 中的这些数字是什么？它们是必不可少的吗？

我试图在按下按键的简单动作中找到这些数字及其含义的任何逻辑解释 GetAsyncKeyState VK SHIFT 0x8000 可以使用哪些其他值来代替0x8000它们与按键有什么关系 GetAsyncKeyState 根据文档返回如果
为什么pow函数比简单运算慢？

从我的一个朋友那里我听说 pow 函数比简单地将底数乘以它的指数的等价函数要慢例如据他介绍 include
如何在C（Linux）中的while循环中准确地睡眠？

在 C 代码 Linux 操作系统中我需要在 while 循环内准确地休眠比如说 10000 微秒 1000 次我尝试过usleep nanosleep select pselect和其他一些方法但没有成功一旦大约 50 次它
查找进程的完整路径

我已经编写了 C 控制台应用程序当我启动应用程序时不使用cmd 我可以看到它列在任务管理器的进程列表中现在我需要编写另一个应用程序在其中我需要查找以前的应用程序是否正在运行我知道应用程序名称和路径所以我已将管理对象搜索器查询写入
如何判断计算机是否已重新启动？

我曾经使用过一个命令行 SMTP 邮件程序作为试用版的限制它允许您在每个 Windows 会话中最多接收 10 封电子邮件如果您重新启动计算机您可能还会收到 10 个以上我认为这种共享软件破坏非常巧妙我想在我的应用程序中复制它
Visual Studio 在构建后显示假错误

我使用的是 Visual Studio 2017 构建后 sln在调试模式下我收到错误但是当我通过双击错误列表选项卡中的错误来访问错误时错误会从页面中消失并且错误数量也会减少我不太确定这种行为以及为什么会发生这种情况有超过 2
使用可变参数包类型扩展的 C++ 函数调用者包装器

我绑定了一些 API 并且绑定了一些函数签名如下所示 static bool WrapperFunction JSContext cx unsigned argc JS Value vp 我尝试将对象和函数包装在 SpiderMonkey
告诉 Nancy 将枚举序列化为字符串

Nancy 默认情况下在生成 JSON 响应时将枚举序列化为整数我需要将枚举序列化为字符串有一种方法可以通过创建来自定义 Nancy 的 JSON 序列化JavaScript 原始转换器 https github com NancyFx
类型约束

我有以下类层次结构 class Header IEnumerable
如何在 Qt 应用程序中通过终端命令运行分离的应用程序？

我想使用命令 cd opencv opencv 3 0 0 alpha samples cpp cpp example facedetect lena jpg 在 Qt 应用程序中按钮的 clicked 方法上运行 OpenCV 示例代码
C++ 中的双精度型数字

尽管内部表示有 17 位但 IEE754 64 位浮点应该正确表示 15 位有效数字有没有办法强制第 16 位和第 17 位为零 Ref http msdn microsoft com en us library system dou
打印大型 WPF 用户控件

我有一个巨大的数据我想使用 WPF 打印我发现WPF提供了一个PrintDialog PrintVisual用于打印派生的任何 WPF 控件的方法Visual class PrintVisual只会打印一页因此我需要缩放控件以适合页面
将数组作为参数传递

如果我们修改作为方法内参数传递的数组的内容则修改是在参数的副本而不是原始参数上完成的因此结果不可见当我们调用具有引用类型参数的方法时会发生什么过程这是我想问的代码示例 using System namespace Value Re
在 Windows Phone silverlight 8.1 上接收 WNS 推送通知

我有 Windows Phone 8 1 silverlight 应用程序我想使用新框架 WNS 接收通知我在 package appxmanifest 中有
GCC 的“-Wl,option”和“-Xlinker option”语法之间有区别吗？

我一直在查看一些配置文件并且看到它们都被使用尽管在不同的体系结构上如果您在 Linux 机器上使用 GCC 将选项传递给链接器的两种语法之间有区别吗据我所知阅读 GCC 手册时他们的解释几乎相同 From man gcc Xli
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
如何减少具有多个单元的 PdfPTable 的内存消耗

我正在使用 ITextSharp 创建一个 PDF 它由单个 PdfTable 组成不幸的是对于特定的数据集由于创建了大量 PdfPCell 我遇到了内存不足异常我已经分析了内存使用情况我有近百万个单元格的 1 2 在这种情况下有
如何使用 C++11 using 语法键入定义函数指针？

我想写这个 typedef void FunctionPtr using using 我该怎么做呢它具有类似的语法只不过您从指针中删除了标识符 using FunctionPtr void 这是一个Example http ideone

随机推荐

具有多个数据源的 Tomcat 6/7 JNDI

当有多个时
使用 strftime 将 NSDate 转换为 String

如何将 NSDate 转换为使用 strftime 说明符格式化的 NSString 你可以使用 strftime NSDate date NSDate date time t time date timeIntervalSince1970
pygraphviz，导入错误：未定义的符号：Agundirected

import pygraphviz Traceback most recent call last File
Nasm 打印到下一行

我用 nasm Assembly 编写了以下程序 section text global start start Input variables mov edx inLen mov ecx inMsg mov ebx 1 mov eax 4
在C#中，如何检测一个字符是否是非ASCII字符？

我想在 C 中检查 char 是否包含非 ASCII 字符检查特殊字符的最佳方法是什么例如志 or ASCII 范围为 0 127 因此只需检查该范围 char c a or whatever char you have bool is
WebView ssl 错误

对不起我的英语不好我需要加载 url https 我有一些问题当我尝试加载页面时 webView 给我错误 primary error 3 certificate Issued to CN my site com Issued by C
在多个

如何避免 OrderBy - 内存使用问题

如何避免 OrderBy - 内存使用问题 的相关文章

随机推荐

如何避免 OrderBy - 内存使用问题的相关文章