如何对迭代器进行排序而不将其全部放入向量中?

2024-04-03

我正在构建一个类似于生成器的通用接口,它将数据从一个流传输到另一个流,最终执行以下操作:

file |> toCsv |> filter |> sort |> filter...

我知道如何对向量/切片进行排序,但是如何从传入流/迭代器中进行排序而不将其全部放入向量中?

stream.iter().collect_sorted()

我需要融合向量、树、文件、数据库等,所以有时我不知道传入的数据有多大,而不消耗它们。

我不反对存储结果。问题在于排序与切片/向量相关。我需要能够做到:

datasource |> Algo.sort |> next...

代替:

let data = datasource |> into_vec
data.sort()
data |> next...

不同的用例存在不同的排序算法,因此最终我希望对手头的数据应用最好的算法:

datasource |> Algo.MergeSort |> next...
datasource |> Algo.BubbleSort |> next...

对一组值进行排序实际上是不可能的without拥有所有数据。例如,如果迭代器有 10 亿个实例1随后是一个0,直到你到达那里之前,你根本不知道零需要先走。您可能希望重新熟悉以下概念在线和离线算法 https://en.wikipedia.org/wiki/Online_algorithm.

无需将其全部放入向量中

这很简单:不要使用向量,使用任何实现的类型FromIterator https://doc.rust-lang.org/std/iter/trait.FromIterator.html。例如,您可以收集到BinaryHeap:

use std::{collections::BinaryHeap, iter};

fn main() {
    let a_lot_of_numbers = iter::repeat(1).take(100).chain(iter::once(0));
    let data: BinaryHeap<_> = a_lot_of_numbers.collect();
}

这是否是一个好主意完全取决于您的情况。

如果你只是不想see向量或只是希望保留链接,那么我建议使用Itertools::sorted https://docs.rs/itertools/0.8.0/itertools/trait.Itertools.html#method.sorted。这使用了一个Vec在内部,这意味着所有数据都存储在内存中在返回第一个值之前:

use itertools::Itertools; // 0.8.0
use std::iter;

fn main() {
    let a_lot_of_numbers = iter::repeat(1).take(100).chain(iter::once(0));

    for v in a_lot_of_numbers.sorted() {
        println!("{}", v);
    }
}

这是数据库的常见问题,加载所有数据然后排序是不明智的

数据库是极其复杂的软件,需要经过多年的努力并仔细权衡权衡。您不会在包管理器中找到该级别的算法。即使可以,数据库也并不总是正确,需要熟练的程序员调整查询以提高性能。关于 Postgres 排序你需要知道的一切 https://madusudanan.com/blog/all-you-need-to-know-about-sorting-in-postgres/涵盖了 Postgres 的一系列功能。

理论上应该可以编写一个迭代器适配器,将所有数据写入磁盘,在那里执行排序,然后从磁盘重新读取数据。这就是所谓的外部排序 https://en.wikipedia.org/wiki/External_sorting.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何对迭代器进行排序而不将其全部放入向量中? 的相关文章

随机推荐

  • jquery selectedIndex 不起作用

    我有一个带有许多选择标签的 from 当用户提交表单时 我想检查用户是否为所有选择标签选择一个选项 这是我的 jquery 代码 apForm select each function var this this if this selec
  • Kubernetes 配置映射符号链接 (..data/):有办法避免它们吗?

    我注意到 当我创建并安装包含一些文本文件的配置映射时 容器会将这些文件视为符号链接 data myfile txt 例如 如果我的配置映射名为 tc configs 并包含 2 个名为 stripe1 xml 和 stripe2 xml 的
  • CSS Calc((100%/5)+10px) 不起作用

    好吧 在我的 CSS 中 我正在尝试进行数学计算 calc 100 5 10px 当我这样做时 它不起作用 当我计算时 100 5 它工作得很好 我需要做什么才能让 10px 正常工作 您需要做的是使用正确的语法 calc 100 5 10
  • 如何在 Ionic 框架中使用 CSS 选择器隔离特定平台

    我遇到了一种罕见的情况 尽管考虑到 Android 和 iOS 之间的行为不同 这是可以理解的 我想在我正在 Ionic 框架上开发的 Cordova 应用程序中使用专门针对 iOS 的不同样式 我想知道基于平台隔离选择器的最佳方法 基本上
  • 如何通过azure云服务上的kubernetes检查持久卷的内容

    我已将软件打包到容器中 我需要通过Azure容器服务将容器放入集群 该软件具有目录的输出 src data 我想访问整个目录的内容 搜索后 我必须解决 在azure上使用Blob存储 但是搜索后 我找不到可执行方法 使用持久卷 但是我找到的
  • Python Pygame 游戏灯光

    我正在制作一款 2D 横向卷轴游戏 游戏中的一个物品是火炬 我有一个手臂可以旋转的玩家 我们可以获取手臂的角度 我正在寻找跟随手臂角度的三角形光束形状 我有一些想法 比如在整个屏幕上放置一个 alpha 图像 并根据手臂角度单独从每个像素中
  • 具有扩展方法的 Kotlin 数据绑定

    我正在尝试在 Android 的数据绑定中使用 Kotlin 扩展方法 例如 调用 onclick 处理程序 所以我编写了这段代码 posttest list item xml
  • 输入文件大小和内容在 macOS 上不会更新

    我编写了一个基于网络的小型工具 它使用文件输入来读取不断变化的文件 用户手动选择它 一次 JavaScript 会跟踪它的更改时间 上次文件修改时间和文件大小 如果已更改 则会再次读取文件内容 这在 Windows 上的所有浏览器中都可以正
  • PHP AWS SDK 3错误:AWS HTTP错误:cURL错误6:无法解析主机:s3.oregon.amazonaws.com

    我正在尝试连接到 AWS 版本 3 SDK 存储桶 但是 我收到以下错误 PHP 致命错误 未捕获异常 Aws S3 Exception S3Exception 并显示消息 在 上执行 PutObject 时出错 https s3 oreg
  • 我如何在 codeigniter 中创建一个虚荣网址

    我如何在 codeigniter 中创建一个虚荣网址 我在框架中执行此操作确实遇到困难 而且似乎没有任何好的答案 有可能 我正在我的一个项目中使用它 这是 CodeIgniter 论坛上的一个帖子 展示了如何做到这一点 http codei
  • 您遇到过的最好的源代码注释是什么? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 使用 .NET Core 时是否需要 AssemblyInfo?

    之前 AssemblyInfo cs文件是由 Visual Studio 自动创建的 用于包含程序集范围的属性 如 AssemblyVersion AssemblyName 等 在 NET Core 和 ASP NET Core 中 pro
  • T-SQL - 按周进行透视

    我目前正在尝试创建一个 T SQL 它运行表中的交货列表 并按客户和仓库对它们进行分组 因此每一行都将是 客户 仓库 总价值 称为费率的列的总和 然而 客户希望将 总价值 分为过去 9 周 因此 我们将拥有如下列 而不是总价值 22 01
  • 为什么我的 rustup rust-toolchain 文件没有覆盖默认值?

    我想使用 Rust 每晚 构建来与 Arrow 和 Datafusion 配合使用 根据这个帖子 https stackoverflow com questions 58226545 how to switch between rust t
  • ESP8266 I2C从机不确认数据

    我有一个 TM4C123 处理器作为 I2C 主处理器 一个 ESP8266 作为从处理器 对于 ESP 我使用的是 Arduino IDE 并在 2 5 2 版安装了 ESP8266 支持 它应该支持 I2C 从模式 但是 我无法让它工作
  • NsdManager.DiscoveryListener.onServiceFound 的 NsdServiceInfo 中 Host 为 null

    我试图将 NsdServiceInfo 的 mHost 作为参数传递给 NsdManager DiscoveryListener onServiceFound 但它为空 我有两个 Android 设备 其中设备 1 是服务器 设备 2 是客
  • 如何添加到表过滤器以允许多个复选框选择以及从下拉列表中进行过滤?

    我有一个可以通过多个复选框以及 选择 下拉列表进行过滤的表格 本质上 我想要做的是单击多个复选框 以便找到包含该类 例如类 1 和 3 的每一行 然后按位置对其进行过滤 此时我已经非常接近了 我可以从复选框中选择位置 这也是一个类 两个字母
  • 基于正则表达式以闪亮方式突出显示 DT 中的单词

    使用闪亮的 DT 我希望能够突出显示所选单词 环境searchHighlight TRUE接近我想要的 但这也会突出显示包含搜索的单词 例如 如果我搜索 on 它也会匹配 stone 突出显示中间的 on 示例图片 我可以优化搜索选项reg
  • 在单遍中执行多次还原

    在流的单次传递中执行多次归约的习惯用法是什么 是否只是拥有一个大的减速器类 即使这违反了 SRP 如果需要不止一种类型的减速计算 大概您希望避免进行多次传递 因为管道阶段可能很昂贵 或者您希望避免收集中间值以便通过多个收集器运行它们 因为存
  • 如何对迭代器进行排序而不将其全部放入向量中?

    我正在构建一个类似于生成器的通用接口 它将数据从一个流传输到另一个流 最终执行以下操作 file gt toCsv gt filter gt sort gt filter 我知道如何对向量 切片进行排序 但是如何从传入流 迭代器中进行排序而