如何对 LINQ to Objects 查询进行分区？

2024-04-07

这是一个资源分配问题。我的目标是运行查询来获取任何时间段的最高优先级班次。

数据集非常大。对于此示例，假设 1000 家公司每个班次有 100 个班次（尽管实际数据集更大）。它们都已加载到内存中，我需要对它们运行单个 LINQ to Objects 查询：

    var topShifts =
            (from s in shifts
            where (from s2 in shifts
                   where s2.CompanyId == s.CompanyId && s.TimeSlot == s2.TimeSlot
                   orderby s2.Priority
                   select s2).First().Equals(s)
            select s).ToList();

问题是，如果不进行优化，LINQ to Objects 将比较两个集合中的每个对象，对所有 1,000 x 100 与 1,000 x 100 进行交叉连接，这相当于 100 亿 (10,000,000,000) 次比较。我想要的是仅比较每个公司内的对象（就好像公司在 SQL 表中建立了索引一样）。这应该会产生 1000 组 100 x 100 对象，总共进行 1000 万 (10,000,000) 次比较。随着公司数量的增长，后者将呈线性而非指数式扩展。

技术如I4o http://i4o.codeplex.com/允许我执行类似的操作，但不幸的是，我无法在执行此查询的环境中使用自定义集合。另外，我只希望在任何给定数据集上运行此查询一次，因此持久索引的价值是有限的。我期望使用一种扩展方法，该方法将按公司对数据进行分组，然后在每个组上运行表达式。

完整示例代码：

public struct Shift
{
    public static long Iterations;

    private int companyId;
    public int CompanyId
    {
        get { Iterations++; return companyId; }
        set { companyId = value; }
    }

    public int Id;
    public int TimeSlot;
    public int Priority;
}

class Program
{
    static void Main(string[] args)
    {
        const int Companies = 1000;
        const int Shifts = 100;
        Console.WriteLine(string.Format("{0} Companies x {1} Shifts", Companies, Shifts));
        var timer = Stopwatch.StartNew();

        Console.WriteLine("Populating data");
        var shifts = new List<Shift>();
        for (int companyId = 0; companyId < Companies; companyId++)
        {
            for (int shiftId = 0; shiftId < Shifts; shiftId++)
            {
                shifts.Add(new Shift() { CompanyId = companyId, Id = shiftId, TimeSlot = shiftId / 3, Priority = shiftId % 5 });
            }
        }
        Console.WriteLine(string.Format("Completed in {0:n}ms", timer.ElapsedMilliseconds));
        timer.Restart();

        Console.WriteLine("Computing Top Shifts");
        var topShifts =
                (from s in shifts
                where (from s2 in shifts
                       where s2.CompanyId == s.CompanyId && s.TimeSlot == s2.TimeSlot
                       orderby s2.Priority
                       select s2).First().Equals(s)
                select s).ToList();
        Console.WriteLine(string.Format("Completed in {0:n}ms", timer.ElapsedMilliseconds));
        timer.Restart();

        Console.WriteLine("\nShifts:");
        foreach (var shift in shifts.Take(20))
        {
            Console.WriteLine(string.Format("C {0} Id {1} T {2} P{3}", shift.CompanyId, shift.Id, shift.TimeSlot, shift.Priority));
        }

        Console.WriteLine("\nTop Shifts:");
        foreach (var shift in topShifts.Take(10))
        {
            Console.WriteLine(string.Format("C {0} Id {1} T {2} P{3}", shift.CompanyId, shift.Id, shift.TimeSlot, shift.Priority));
        }

        Console.WriteLine(string.Format("\nTotal Comparisons: {0:n}", Shift.Iterations/2));

        Console.WriteLine("Any key to continue");
        Console.ReadKey();
    }
}

示例输出：

1000 个公司 x 100 个班次
填充数据
10.00 毫秒内完成
计算最高班次
520,721.00ms 内完成

转变：
C 0 Id 0 T 0 P0
C 0 ID 1 T 0 P1
C 0 Id 2 T 0 P2
C 0 Id 3 T 1 P3
C 0 ID 4 T 1 P4
C 0 ID 5 T 1 P0
C 0 Id 6 T 2 P1
C 0 ID 7 T 2 P2
C 0 Id 8 T 2 P3
C 0 ID 9 T 3 P4
C 0 ID 10 T 3 P0
C 0 ID 11 T 3 P1
C 0 ID 12 T 4 P2
C 0 ID 13 T 4 P3
C 0 ID 14 T 4 P4
C 0 ID 15 T 5 P0
C 0 ID 16 T 5 P1
C 0 ID 17 T 5 P2
C 0 ID 18 T 6 P3
C 0 ID 19 T 6 P4

上班：
C 0 Id 0 T 0 P0
C 0 ID 5 T 1 P0
C 0 Id 6 T 2 P1
C 0 ID 10 T 3 P0
C 0 ID 12 T 4 P2
C 0 ID 15 T 5 P0
C 0 ID 20 T 6 P0
C 0 ID 21 T 7 P1
C 0 ID 25 T 8 P0
C 0 ID 27 T 9 P2

比较总数：10,000,000,015.00
按任意键继续

问题：

如何对查询进行分区（同时仍作为单个 LinQ 查询执行）以便将比较次数从 100 亿减少到 1000 万？
有没有比子查询更有效的解决问题的方法？

怎么样

            var topShifts = from s in shifts.GroupBy(s => s.CompanyId)
                        from a in s.GroupBy(b => b.TimeSlot)
                        select a.OrderBy(p => p.Priority).First();

似乎得到相同的输出，但进行了 100015 次比较

通过@Geoff 的编辑，他将我的比较减少了一半:-)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何对 LINQ to Objects 查询进行分区？的相关文章

如何将动态数据写入 MVC 3 Razor 中的页面布局？

我有带有 Razor 引擎的 MVC 3 C 项目将动态数据写入 Layout cshtml 的方法和最佳实践是什么例如也许我想在网站的右上角显示用户名该名称来自会话数据库或基于用户登录的任何内容更新我也在寻找将某些数据渲染到
从 unsigned char* 到 char* 的转换无效

这是一个代码 1 int main int argc char argv 2 3 signed char S psc 4 unsigned char U pusc 5 char C pc 6 7 C S 8 C U 9 10 pc psc
为什么迭代器类型推导失败？ [复制]

这个问题在这里已经有答案了为什么这在 C 中不起作用为什么我不能限制foo的参数为std vector
无法在 Visual Studio 2022 中启动调试适配器

如果我创建一个启用了 Docker 支持的 ASP Core MVC 目标框架 5 0 并启动它我会得到发生一个或多个错误无法启动调试适配器附加信息可能会在输出窗口中可用操作被取消这是调试输出启用 DebugAdapterH
如何使用 libclang 判断成员函数是 const 还是 volatile？

我有一个实例CXCursor同类CXCursor CXXMethod 我想知道这个函数是否是const or volatile 例如 class Foo public void bar const void baz volatile voi
在 T4 代码生成中，如何从引用的程序集中获取类型？

由于 T4 在项目上下文之外运行因此我无权访问当前程序集或其他程序集如何注册对引用程序集的访问然后从中获取类型我猜您想访问项目中建筑物的程序集我在下面的示例代码中所做的是将一个名为 TestLib 的项目添加到我的解决方案中我将
公共基类打破了元组的空基类优化

gcc 4 7 1 对元组进行空基类优化我认为这是一个非常有用的功能然而这似乎有一个意想不到的限制 include
如何在控制器中使用多个 DBContext

如何在控制器中使用多个 DBContext 我尝试以不同的方式重载构造函数一些控制器 public C1 DBContext1 a DBContext2 b DBContext3 c public C1 DBContext1 a publ
无法在 Visual Studio 和 vcpkg 中构建 cmake 项目（致命错误 C1083）

我今天安装了vcpkg 启用了与Visual Studio的集成即 vcpkg集成安装并开始安装库我基本上安装了 cpprestsdk 并触发了 boost 库的安装然后我在 Visual Studio CMake 中打开该项目当
如何检查给定调用站点的重载决策集

如何检查重载解析集我在多个调用站点中使用了 4 个相互竞争的函数在一个调用站点中我期望调用一个函数但编译器会选择另一个函数我不知道为什么这不是微不足道的为了了解发生了什么我正在使用enable if disable if打开
创建仅包含枚举的 COM 库时出现问题

我正在做一个 COM 互操作项目用 C 和 NET Interop 替代一些 VB 和 C ATL COM 项目当我在 NET 中定义枚举并将它们设为 ComVisible 时它们会公开为 Typelib EnumType Enum
我如何模拟 UserManager 和 RoleManager 进行单元测试

我模拟了抽象类来测试类的具体方法如下所示 var mock new Mock
这个元组创建习惯有名字吗？

On the 增加邮件列表 http lists boost org Archives boost 2014 06 214213 php LouisDionne 最近发布了以下创建类似元组的实体的巧妙技巧 include
多个包含带有变量定义的头文件

我只是构建一个简单的 C 项目代码如下所示 head h ifndef HEAD H define HEAD H int my var 100 endif src1 cpp include head h src2 cpp include
C# 中的类和模块有什么用

有人可以解释一下类和模块之间的区别吗你什么时候使用其中一种而不是另一种我正在使用 C 更新我的意思是相当于 VB 模块的 C 版本这在很大程度上取决于您所指的模块 Visual Basic 的模块 C 中没有真正等效的 VB Ne
C# 从今天起 30 天

我需要我的应用程序从今天起 30 天后过期我会将当前日期存储在应用程序配置中如何检查应用程序是否已过期我不介意用户是否将时钟调回来并且应用程序可以正常工作用户太愚蠢而不会这样做 if appmode Trial string dat
什么是 C++11 扩展 [-Wc++11-extensions]

我需要一些帮助来了解此错误发生的位置警告非静态数据成员的类内初始化是 C 11 扩展 Wc 11 extensions 这是它来自的代码部分 typedef struct Hand bool straight false bool fl
C# XML 反序列化。将节点中的所有内部文本读取到字符串属性中

我目前正在尝试修改我的类以便我的模型上的文本属性包含某个节点的所有内部文本 text node 给我带来问题的 xml 示例是
为什么在 C++ 类中的数据成员上使用像 m_ 这样的前缀？

许多 C 代码使用语法约定来标记数据成员常见的例子包括 m memberName对于公共成员在所有使用公共成员的情况下 memberName对于私人会员或所有会员其他人尝试强制使用this gt member每当使用数据成员时根据我
从最大到最小的3个整数

我是 C 初学者我使用编程使用 C 的原理与实践第二版问题如下编写一个程序提示用户输入三个整数值然后以逗号分隔的数字顺序输出这些值如果两个值相同则应将它们排列在一起 include

随机推荐

如何停止默认 onclick 在文本框中设置今天日期的日期时间选择器

当我们选择日历图标时它会自动将今天的日期设置为文本框 datetimepicker 函数中是否有任何参数选项可以设置为 false 或 null 以防止 datetimepicker 默认将今天日期设置为文本框如果有人没有从日历中选择
带有 google Identity 工具包的 Google Cloud 端点

我的总体目标是创建一个移动和网络应用程序允许多个身份提供商谷歌 Facebook 电子邮件密码并使用谷歌云端点 python 来执行用户授权检查我正在尝试找出最好的方法来做到这一点是否可以使用 Google Identity 工
完整路径必须少于 260 个字符 - SSRS

我将 Web 应用程序中的菜单项之一指向以下路径 http localhost Reports Pages Folder aspx ItemPath Parent Reports Child Reports 当我单击它时报告管理器 UI
在 Verilog 程序中使用连续分配？

在 Verilog 程序中使用连续赋值是否可能和或有用例如是否有任何理由将assign里面一个always堵塞例如这段代码 always begin assign data in Data end 此外是否可以用这种方法生成顺序逻
如何在 Xcode 中确定是否针对 64 位 iOS 进行编译

考虑以下函数 CGSize CGSizeIntegral CGSize size return CGSizeMake ceilf size width ceilf size height CGSize实际上由两个组成CGFloats and
初始加载时导航控制器后面的 UITableViewController 中的 UITableView

在我的 UITableViewController 的初始加载中第一行隐藏在导航后面但是如果我推送到另一个视图并返回到此 UITableViewController 它会正确加载并且第一行不会被遮挡我想不通这个问题这是表格初始加载的
如何手动告诉所有者绘制的 WPF 控件刷新/重绘而不执行测量或安排通道？

我们正在控件子类中进行自定义绘图OnRender 该绘图代码基于外部触发器和数据因此每当触发器触发时我们都需要根据该数据重新渲染控件我们想要做的是找出如何强制控件重新渲染但不经历整个布局过程如上所述我见过的大多数答案都围绕着使
从父类访问子类静态变量？

我有一个基类我需要调用子类中引用的类上的函数足够容易 class base class public function doSomethingWithReference this gt reference gt doSomething
将淘汰对象转换为纯 JavaScript 对象时出现无限循环

遵循中给出的说明文档 http knockoutjs com documentation json data html 我有以下视图模型 var newContactViewModel function var self this self
使用 JSON 和 JSP 的 Spring MVC 控制器

控制器中的相同方法可以用于 JSP 和其他 MIME 类型如 XML 和 JSON 吗我知道以下几种在 Spring MVC 中解析视图的方法返回一个String与视图名称并将属性添加到Model or ModelMap 返回一个Mo
jQuery click：该函数在我单击按钮之前运行。要执行的代码已经包装在 click() 中的函数中

里面的功能 btnPrint click 页面加载后立即运行我这样做了 document ready function btnPrint click function if txtsomething val length gt 0 aja
如何将外键字段添加到 Django 中的 ModelForm？

我想做的是显示一个表单让用户输入文档标题来自Document model 选择他们的其中之一user defined code从下拉列表中进行选择由UserDefinedCode model 输入一个unique code 存储在C
如何在swift中同时为相机和照片库制作UIImagePickerController

我使用 UIImagePickerController 通过 iPhone 的相机拍照我想同时显示拍照和选择照片 My code imagePicker UIImagePickerController imagePicker del
用于电子表格的 Google 应用脚本：如何在脚本管理器中隐藏辅助函数？

我使用 Google Apps 脚本在 Google 电子表格中自定义了一个菜单我遇到的问题是当我按脚本管理器时我正在使用的所有辅助函数都会列出我想隐藏它们我读过如果我在函数名称末尾加下划线但它不起作用 From documen
Ruby 是否像 PHP 一样支持 var 引用？

在 PHP 中您可以使两个变量指向相同的数据 a foo b bar a b echo a Outputs bar echo b Outputs bar 我们在 Ruby 中尝试做的事情已经确定 app session等于session
无法使用轨迹球单击列表视图中的视图

我有一个在行视图中带有可单击按钮的列表视图以及一个自定义 SimpleCursorAdapter 来实现此列表尽管单击该行时 onitemclicklistener 没有被触发请参阅here https stackoverflow c
MinGW C 编译器“无法编译简单的测试程序”

我想将 MinGW 作为 C 编译器运行 MinGW 已从 Chocolatey 安装调用是通过 CMake 从 gitlab runner 进行的这失败了 cmake G MinGW Makefiles DCMAKE C COMPIL
通过 Excel VBA 实现 IE11 自动化 - 公司网页

首先我对尝试通过 Excel VBA 自动化 IE 还很陌生话虽这么说我正在努力自动登录公司特定的网页仅我们的员工可以访问目标是自动登录员工编号密码并单击登录我发现 Firefox 在识别字段方面特别有帮助所以这就是我在
Laravel 翻译 required_if 值

我正在使用 Laravel 版本 5 2 45 目前我在翻译 required if 规则时遇到一些麻烦当我使用 required if field value 时它会打印错误验证消息中的字段值在本例中为 1 或 0 这不太可读例
如何对 LINQ to Objects 查询进行分区？

这是一个资源分配问题我的目标是运行查询来获取任何时间段的最高优先级班次数据集非常大对于此示例假设 1000 家公司每个班次有 100 个班次尽管实际数据集更大它们都已加载到内存中我需要对它们运行单个 LINQ to Objec

如何对 LINQ to Objects 查询进行分区？

如何对 LINQ to Objects 查询进行分区？ 的相关文章

随机推荐

热门标签

如何对 LINQ to Objects 查询进行分区？的相关文章