使用 Scalaz 7 zipWithIndex/group enumeratees 避免内存泄漏

2024-02-10

背景

如中所述这个问题 https://stackoverflow.com/questions/19059831/asynchronous-iteratee-processing-in-scalaz，我使用 Scalaz 7 iteratees 来处理常量堆空间中的大型（即无界）数据流。

我的代码如下所示：

type ErrorOrT[M[+_], A] = EitherT[M, Throwable, A]
type ErrorOr[A] = ErrorOrT[IO, A]

def processChunk(c: Chunk, idx: Long): Result

def process(data: EnumeratorT[Chunk, ErrorOr]): IterateeT[Vector[(Chunk, Long)], ErrorOr, Vector[Result]] =
  Iteratee.fold[Vector[(Chunk, Long)], ErrorOr, Vector[Result]](Nil) { (rs, vs) =>
    rs ++ vs map { 
      case (c, i) => processChunk(c, i) 
    }
  } &= (data.zipWithIndex mapE Iteratee.group(P))

问题

我似乎遇到了内存泄漏，但我对 Scalaz/FP 不够熟悉，无法知道该错误是在 Scalaz 中还是在我的代码中。直观上，我希望这段代码只需要（按顺序）P倍Chunk- 大小的空间。

注：我发现类似的问题 https://stackoverflow.com/questions/16228154/scalaz-7-iteratee-to-process-large-zip-file-outofmemoryerror其中一个OutOfMemoryError遇到了，但我的代码没有使用consume.

Testing

我进行了一些测试来尝试找出问题所在。总而言之，只有当两者都存在时才会出现泄漏zipWithIndex and group被使用。

// no zipping/grouping
scala> (i1 &= enumArrs(1 << 25, 128)).run.unsafePerformIO
res47: Long = 4294967296

// grouping only
scala> (i2 &= (enumArrs(1 << 25, 128) mapE Iteratee.group(4))).run.unsafePerformIO
res49: Long = 4294967296

// zipping and grouping
scala> (i3 &= (enumArrs(1 << 25, 128).zipWithIndex mapE Iteratee.group(4))).run.unsafePerformIO
java.lang.OutOfMemoryError: Java heap space

// zipping only
scala> (i4 &= (enumArrs(1 << 25, 128).zipWithIndex)).run.unsafePerformIO
res51: Long = 4294967296

// no zipping/grouping, larger arrays
scala> (i1 &= enumArrs(1 << 27, 128)).run.unsafePerformIO
res53: Long = 17179869184

// zipping only, larger arrays
scala> (i4 &= (enumArrs(1 << 27, 128).zipWithIndex)).run.unsafePerformIO
res54: Long = 17179869184

测试代码：

import scalaz.iteratee._, scalaz.effect.IO, scalaz.std.vector._

// define an enumerator that produces a stream of new, zero-filled arrays
def enumArrs(sz: Int, n: Int) = 
  Iteratee.enumIterator[Array[Int], IO](
    Iterator.continually(Array.fill(sz)(0)).take(n))

// define an iteratee that consumes a stream of arrays 
// and computes its length
val i1 = Iteratee.fold[Array[Int], IO, Long](0) { 
  (c, a) => c + a.length 
}

// define an iteratee that consumes a grouped stream of arrays 
// and computes its length
val i2 = Iteratee.fold[Vector[Array[Int]], IO, Long](0) { 
  (c, as) => c + as.map(_.length).sum 
}

// define an iteratee that consumes a grouped/zipped stream of arrays
// and computes its length
val i3 = Iteratee.fold[Vector[(Array[Int], Long)], IO, Long](0) {
  (c, vs) => c + vs.map(_._1.length).sum
}

// define an iteratee that consumes a zipped stream of arrays
// and computes its length
val i4 = Iteratee.fold[(Array[Int], Long), IO, Long](0) {
  (c, v) => c + v._1.length
}

问题

我的代码中有错误吗？
我怎样才能在恒定的堆空间中完成这项工作？

对于那些与旧的人纠缠不休的人来说，这并不能带来什么安慰。iterateeAPI，但我最近验证了等效测试通过了scalaz-stream API https://github.com/scalaz/scalaz-stream。这是一个较新的流处理 API，旨在取代iteratee.

为了完整起见，这里是测试代码：

// create a stream containing `n` arrays with `sz` Ints in each one
def streamArrs(sz: Int, n: Int): Process[Task, Array[Int]] =
  (Process emit Array.fill(sz)(0)).repeat take n

(streamArrs(1 << 25, 1 << 14).zipWithIndex 
      pipe process1.chunk(4) 
      pipe process1.fold(0L) {
    (c, vs) => c + vs.map(_._1.length.toLong).sum
  }).runLast.run

这应该适用于任何值n参数（前提是您愿意等待足够长的时间）——我使用 2^14 32MiB 数组进行了测试（即，随着时间的推移总共分配了 0.5 TiB 的内存）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Scalaz 7 zipWithIndex/group enumeratees 避免内存泄漏的相关文章

如何在映射中将字符串转换为 Seq[String]

我有一个Map String String 以及需要的第三方功能Map String Seq String 有没有一种简单的方法来转换它以便我可以将地图传递给函数 original mapValues Seq 注意mapValues返回地
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
为什么自类型类可以声明类

我知道 Scala 只能混合特征这对于依赖注入和蛋糕模式是有意义的我的问题是为什么我仍然可以声明一个需要另一个类但不需要特征的类 Code class C class D self C gt 这仍然编译成功我认为它应该编译失败因
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
如何在 sbt 控制台中加载 scala 文件？ [复制]

这个问题在这里已经有答案了可能的重复将 Scala 文件加载到解释器中以使用函数 https stackoverflow com questions 7383436 load scala file into interpreter to
如何将 Java 地图转换为在 Scala 中使用？

我正在开发一个 Scala 程序该程序调用 Java 库中的函数处理结果并生成 CSV 有问题的 Java 函数如下所示 Map
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
如何使用scala获取elasticsearch中_delete_by_query api的状态

我正在 scala 中向 elasticsearch 发送 HTTP post Http s http elkIp 5051 indexName delete by query postData s query terms zip id k
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
当泛型类型与无界通配符一起使用时，不考虑类型参数绑定

在我的项目中我有一个这样的星座 trait F trait X A lt F def test x X X lt F x Trait X有一个类型参数其上限为F 根据我的理解类型X and X lt F 应该是等价的但scalac2
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec

随机推荐

激活 wp 插件时无法创建多个自定义数据库表

我无法在激活我的 WordPress 插件时在数据库中创建多个自定义表它仅创建最后一个表如此代码中提到的书签而不是创建所有表用户字段可见性通知等 function your plugin options install g
通过多线程重用空手道功能时出错

以下代码适用于单线程 def validateAricle file features Articles feature validateArticle def articles id 12 call read validateArticl
警报返回多次

我正在学习 JS 并试图解决编码挑战当我输入参数时我应该有一个警报告诉用户发电机总量和总瓦数问题是读码器说我正在提醒不止一个我在做什么使警报被多次调用这是我的第一次尝试 function changePowerTotal tota
无法解析属性“CosmosDBAttribute.ConnectionStringSetting”的值

我使用 Visual Studio 和 CosmosDB 输出开发了简单的服务总线触发器 Service Bus 和 CosmosDB 的连接字符串在 local settings json 中定义代码在本地功能齐全现在我已经将 Zip
close 是否会抛出 IOException？

在此处提供了一些答案并阅读了一些评论之后似乎在实践中文件 I O 的关闭时永远不会引发 IOException 是否存在对 Stream Reader Writer 调用 close 实际上抛出 IOException 的情况如果确实
Subversion 合并需要“旧风格”，即使一切看起来都是最新的？

我最近从旧的 subversion 服务器存储库迁移到最新版本 1 8 9 新存储库是在新服务器上从头开始创建的旧数据是从头开始导入的我们从旧存储库中签出代码将其导出到本地以删除所有 SVN 绑定然后将其重新签入新存储库中一切看
带内边距的边框不能为 0 宽度

考虑这段代码 div box sizing border box width 0 height 0 max width 0 max height 0 border 1px solid gray padding 12px overflow h
什么是序列（数据库）？我们什么时候需要它？

即使有主键为什么我们还要创建一个序列主键是表中的一列主键需要一个唯一的值该值需要来自某个地方序列是某些数据库产品的一个功能它只是创建唯一的值它只是增加一个值并返回它它的特别之处在于没有事务隔离因此多个事务不能获得相同的值
Docker 构建错误“无法获取索引基 URL http://pypi.python.org/simple/”

我正在构建一个 dockerfiledocker build 命令在构建时我遇到以下错误 Downloading unpacking requests Cannot fetch index base URL http pypi pyth
如何在模拟方法中对函数进行单元测试

我如何在这里测试DeleteAppointmentById Func
Javascript：解析 document.cookie JSON 对象时出现问题

在服务器上我将 JSON 对象存储为 cookie 使用 Django json dumps 它看起来像这样 name Simon gender M 在客户端上当我运行 document cookie 时我可以看到 cookie 它看
如何将脚本仅应用于 Google 电子表格中的一张工作表

我有一个谷歌电子表格其中有两张纸分别称为 Robin 和 Lucy 我制作找到修改了一个脚本用于在每次向 A 列添加一些数据时对工作表上的数据进行排序 function onEdit event var sheet event s
使用不带类型的 FileHelpers

我有一个从另一个系统导出的 CSV 文件其中列顺序和定义可能会更改我发现 FileHelpers 非常适合读取 csv 文件但除非您在编译应用程序之前知道列的顺序否则您似乎无法使用它我想知道是否可以以非类型化方式使用 FileHe
SQL查询和日期时间参数需要很长时间才能执行

我有一个以日期时间作为参数的查询我们观察到如果您通过变量提供日期时间参数则查询执行时间比直接硬编码参数要多 2 3 倍有什么原因或解决方案到它以下查询大约需要 5 分钟才能返回结果 Declare Date as DateTime
使用 Wordpress JSON API 注册/登录用户

我想为一个 WordPress 网站创建移动应用程序我已经集成了WordPress json 插件 http wordpress org extend plugins json api 我不确定在哪里可以找到用户注册和登录的服务请指教
ruby中如何产生延迟

ruby中如何产生延迟我使用了 sleep 语句但它没有给我我想要的 puts amit sleep 10 puts scj 我希望它首先打印 amit 然后延迟 10 秒然后打印 scj 但在上面的情况下它会暂停 10 秒然后一
fancybox 2：将缩略图放在父 div 中

好的我最近添加了 fancyBox http www fancyapps com 到我的网站它很棒不过我想将缩略图其功能是缩略图助手的一部分因此位于单独的 js 文件中放在图库图像下方我首先尝试更改包含图像的 div 我假设
是否可以重命名列？

是否可以发出类似的东西 RENAME COLUMN col1 col2 在 Google Cloud Spanner 中从 DDL 来看这是不可能的如果不是这是 Beta 版的设计选择还是限制不这是不可能的目前您只能对表中的列
即使线程池中只有一个线程，也会发生并发吗？

我正在使用 Rails 5 和 Ruby 2 4 我怎样才能弄清楚或者你可以通过查看下面的内容来判断是否有多个线程同时运行 pool Concurrent FixedThreadPool new 1 promises links map
使用 Scalaz 7 zipWithIndex/group enumeratees 避免内存泄漏

背景如中所述这个问题 https stackoverflow com questions 19059831 asynchronous iteratee processing in scalaz 我使用 Scalaz 7 iteratees

使用 Scalaz 7 zipWithIndex/group enumeratees 避免内存泄漏

使用 Scalaz 7 zipWithIndex/group enumeratees 避免内存泄漏 的相关文章

随机推荐

热门标签

使用 Scalaz 7 zipWithIndex/group enumeratees 避免内存泄漏的相关文章