Spark 中的foldLeft 或foldRight 等效项？

2023-11-21

在 Spark 的 RDD 和 DStream 中，我们有“reduce”函数，用于将整个 RDD 转换为一个元素。然而，reduce 函数采用 (T,T) => T 然而，如果我们想减少Scala中的列表，我们可以使用foldLeft或foldRight，它采用类型(B)((B,A) => B)，这非常有用，因为你开始折叠时使用的类型不同于列表中的类型。

Spark 有没有办法做类似的事情？我可以从一个与 RDD 本身不同类型的值开始

Use 总计的而不是减少。它还允许您指定 B 类型的“零”值和您想要的函数：(B,A) => B。请注意，您还需要合并在单独执行器上完成的单独聚合，因此 ( B, B) => 还需要 B 功能。

或者，如果您希望这种聚合作为副作用，可以选择使用累加器。特别是，累积型允许结果类型与累积类型不同。

另外，如果您甚至需要对键值 RDD 执行相同的操作，请使用按键聚合.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

SparkStreaming

fold

RDD

Spark 中的foldLeft 或foldRight 等效项？的相关文章

如何在 akka actor 中测试公共方法？

我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
Scala 中缺少多重集吗？

我正在尝试 Scala 中的 Facebook Hacker Cup 2013 资格赛问题对于第三个问题我觉得需要一个有序的 Multiset 但在 scala 的 2 10 集合中找不到一个 scala 的集合中是否缺少此数据结构会
Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
Scala REPL / SBT Console 是否有配置文件？

我一直在尝试找到某种点文件来放入 Scala REPL 设置和自定义函数我特别有兴趣传递它的标志例如 Dscala color 启用语法突出显示以及覆盖设置如结果字符串截断 scala gt power scala gt vals
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
Scala 功能设计模式目录

一周以来我一直在阅读 Scala 编程作者一步一步地介绍了该语言的元素但我仍然很困惑何时使用演员闭包柯里化等功能性的东西我正在寻找功能结构的典型用例或最佳实践的目录我并不是说在 Scala 中重新实现像 GoF 这样的众所周知的
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
如何从java程序的main方法调用Scala程序的main方法？

假设我在 Java 项目中有一个 Scala 类和一个 Java 类 scala 类如下所示 class Sam def main args Array String Unit println Hello 如何从同一项目中存在的 java
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
WSClient - 打开的文件太多

我正在 CentOS 6 上使用 Play Framework 2 4 我的应用程序抛出此异常 java net SocketException Too many open files 我在 Stack Overflow 上搜索了很多主题并
Jack（Java Android 编译器套件）将如何影响 Scala 开发人员

现在随着公告Jack https source android com source jack html谷歌阐明了 Java 与 Android 相关的可预见的未来但这对 Scala 和其他基于 JVM 的语言开发人员有何影响尤其 Sc
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
如何使用精炼库定义 A 和 B 取决于彼此的类型类？

Problem 我有一个案例类 Passenger 从 A 点出发前往 B 点有效乘客意味着A点不等于B点 Passenger a Int b Int 问题我如何使用设计乘客舱refind https index scala lang
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
在 Scala 中创建任意类作为 monad 实例

为了使任何东西都可以在 monad 上下文中操作如果使用 Haskell 我只需在任何地方为给定类型添加类 Monad 的实现所以我根本不接触数据类型定义的来源像人造的东西 data Z a MyZLeft a MyZRight a

随机推荐

安全地覆盖 RAM 中的 Python 变量？ [复制]

这个问题在这里已经有答案了我正在用 Python 编写一个程序其中涉及对密码进行哈希处理假设我用它来获取密码 import getpass password getpass getpass Password 然后对其进行哈希处理有没
WS_EX_APPWINDOW 是做什么的？

这要么只是一个已弃用的窗口样式没有文档要么是我在搜索它时犯了一个缺陷我的问题是这个标志有什么作用是否有我可能需要的支持的等效项非常感谢您的建议 WS EX APPWINDOW是一种扩展窗口样式记录在MSDN 它绝对不会被弃用
Connector/C++ MySQL 错误代码：2014，SQLState: HY000 和命令不同步错误为什么？

您好我使用 Connector C 并执行简单的 2 个 sql 命令如下所示第一个 select sql 运行正常但第二个会导致此异常错误 ERR 命令不同步你现在不能运行这个命令 MySQL 错误代码 2014 SQLStat
firebase .on("value") 和 .once("value") 之间的区别

在更新子 Firebase 时使用时会再运行一次 once 从 firebase 获取值并在应用程序中添加新行但使用时 on 该代码适用于更新子项但不适用于添加新子项因为它从应用程序中删除了该行尽管它添加到了 firebase 但
是否可以获得“setter”的 setter 函数的引用？

例如在这段代码中 var o set a value this b value get a return this b 是否可以获取对该 setter 函数的引用o a这样如果引用被分配给f那么我可以做f call other value
为什么Javascript函数“arguments”不是node.js中Array的实例？

最近看了很多 NodeJS 和 Javascript 代码似乎arguments 不是 Array 的实例但仍然表现得像一个实例所以人们做了类似的事情Array prototype slice call arguments or sl
为什么 Opera 中的文本以更大的字体大小呈现？

我正在开发一个需要或多或少像素完美的 HTML 页面我注意到在 Opera 10 中字体渲染得比在其他浏览器中更大尽管字体大小实际上是相同的请在 Opera 10 和其他浏览器如 Firefox 3 6 中查看此示例页面 http
沿 MKPolyLineView ( MKPolylineRenderer ) 的渐变

我想根据速度等某些条件在折线视图上应用渐变我能够子类化MKPolyLineRenderer使用自定义描边和填充进行绘制但只能沿路径使用相同的颜色我看到其他类似的问题例如从圆形或甜甜圈中绘制线段 or 在 OSX 上如何渐变填充路
M 位置循环移位 N 大小数组的最快算法

M 个位置的循环移位数组最快的算法是什么例如 3 4 5 2 3 1 4 移位 M 2 个位置应该是 1 4 3 4 5 2 3 多谢如果您想要 O n 时间并且不需要额外的内存使用因为指定了数组请使用 Jon Bentley 的书
如何在 C++ 中以大写形式打印地址（十六进制值）

我正在尝试以十六进制打印变量的地址引用并且也以大写形式打印但我发现我能够以大写形式打印相当于 77 的十六进制值但不能打印变量的地址引用有人可以帮我吗以下是我遇到困难的程序 include
__attribute__ vector_size(16) 的含义是什么？

我看到了一个 C 程序 attribute 第一次使用关键字看起来它是一个 GNU 关键字在海湾合作委员会这一页他们解释了它的用途 vector size 16 属性说 int foo attribute vector size 1
如何从 Firebase 经过身份验证的用户获取提供商访问令牌？

我正在使用 Firebase 通过 GitHub Twitter 和 Facebook 进行身份验证并且我知道我可以在身份验证后获得提供程序访问令牌如下所示 firebase auth signInWithPopup provider
如何在 Ruby 中将 MS Excel 日期从浮点数转换为日期格式？

尝试在 ruby 脚本中使用 roo gem 解析 XLSX 文件在 Excel 中日期以 DDDDD ttttt 格式存储为浮点数或整数从1900 01 00 00 no 01 因此为了转换诸如 40396 之类的日期您需要19
在 ASP.NET MVC 应用程序中将特定于视图的 javascript 文件放在哪里？

在 ASP NET MVC 应用程序中放置特定于视图的 javascript 文件的最佳位置哪个文件夹等是什么为了保持我的项目井井有条我真的很希望能够将它们与视图的 aspx 文件并排放置但我还没有找到一种在不暴露 Views 的
以编程方式打开照片应用程序

是否可以从 iPhone 应用程序启动照片应用程序类似于启动邮件 UIApplication sharedApplication openURL url 照片应用程序似乎没有注册其他应用程序可以使用的任何 URL 方案在其他系统应用
在wpf中添加图标字体

我想在 WPF 中添加自定义图标我用entypo and Font Awesome 我在解决方案中添加此包并在 XAML 中使用它
Mysql资源暂时不可用

我在高负载时间内看到了一些错误 mysql connect a href function mysql connect function mysql connect a 2002 Resource temporarily unavailab
查找我的应用程序中所有 Jersey 资源方法的列表？

Jersey 是否提供任何方法来列出它公开的所有资源也就是说给定资源类 package com zoo resource Path animals public class AnimalResource GET Produces Med
Onchange 通过 select 打开 URL - jQuery

在更改选择选项和 URL 时附加事件的最佳方式是什么将 href 存储在 attr 中并在更改时获取它这很简单让我们看一个工作示例
Spark 中的foldLeft 或foldRight 等效项？

在 Spark 的 RDD 和 DStream 中我们有 reduce 函数用于将整个 RDD 转换为一个元素然而 reduce 函数采用 T T gt T 然而如果我们想减少Scala中的列表我们可以使用foldLeft或fol

Spark 中的foldLeft 或foldRight 等效项？

Spark 中的foldLeft 或foldRight 等效项？ 的相关文章

随机推荐

热门标签

Spark 中的foldLeft 或foldRight 等效项？的相关文章