直方图 - 以并行方式进行

2023-12-24

+----+----+--------+
| Id | M1 |  trx   |
+----+----+--------+
| 1  | M1 | 11.35  |
| 2  | M1 | 3.4    |
| 3  | M1 | 10.45  |
| 2  | M1 | 3.95   |
| 3  | M1 | 20.95  |
| 2  | M2 | 25.55  |
| 1  | M2 |  9.95  |
| 2  | M2 | 11.95  |
| 1  | M2 |  9.65  |
| 1  | M2 | 14.54  |
+----+----+--------+

通过上面的数据框，我应该能够使用下面的代码生成如下的直方图。类似的问题在这里 https://stackoverflow.com/questions/59214610/histogram-issue-in-spark-scala

val (Range,counts) = df
.select(col("trx"))
.rdd.map(r => r.getDouble(0))
.histogram(10)
// Range: Array[Double] = Array(3.4, 5.615, 7.83, 10.045, 12.26, 14.475, 16.69, 18.905, 21.12, 23.335, 25.55)
// counts: Array[Long] = Array(2, 0, 2, 3, 0, 1, 0, 1, 0, 1)

但这里的问题是，如何根据“M1”列并行创建直方图？这意味着我需要为列值 M1 和 M2 提供两个直方图输出。

首先，你需要知道histogram生成两个独立的连续作业。一种用于检测数据的最小值和最大值，另一种用于计算实际的直方图。您可以使用 Spark UI 进行检查。

我们可以按照相同的方案在您希望的任意数量的列上构建直方图，只需两项工作。然而，我们不能使用histogram函数仅用于处理一组双精度数。需要我们自己去实现。第一份工作非常简单。

val Row(min_trx : Double, max_trx : Double) = df.select(min('trx), max('trx)).head

然后我们在本地计算直方图的范围。请注意，我对所有列使用相同的范围。它允许轻松比较列之间的结果（通过将它们绘制在同一图上）。不过，每列具有不同的范围只是对此代码的一个小修改。

val hist_size = 10
val hist_step = (max_trx - min_trx) / hist_size
val hist_ranges = (1 until hist_size)
    .scanLeft(min_trx)((a, _) => a + hist_step) :+ max_trx
// I add max_trx manually to avoid rounding errors that would exclude the value

这是第一部分。然后，我们可以使用 UDF 来确定每个值的最终范围，并与 Spark 并行计算所有直方图。

val range_index = udf((x : Double) => hist_ranges.lastIndexWhere(x >= _))
val hist_df = df
    .withColumn("rangeIndex", range_index('trx))
    .groupBy("M1", "rangeIndex")
    .count()
// And voilà, all the data you need is there.
hist_df.show()
+---+----------+-----+
| M1|rangeIndex|count|
+---+----------+-----+
| M2|         2|    2|
| M1|         0|    2|
| M2|         5|    1|
| M1|         3|    2|
| M2|         3|    1|
| M1|         7|    1|
| M2|        10|    1|
+---+----------+-----+

作为奖励，您可以使用 RDD API 或通过收集数据帧并在 scala 中修改它来调整数据以在本地（在驱动程序内）使用它。

这是使用 Spark 的一种方法，因为这是一个关于 Spark 的问题;-)

val hist_map = hist_df.rdd
    .map(row => row.getAs[String]("M1") ->
             (row.getAs[Int]("rangeIndex"), row.getAs[Long]("count")))
    .groupByKey
    .mapValues( _.toMap)
    .mapValues( hists => (1 to hist_size)
                    .map(i => hists.getOrElse(i, 0L)).toArray )
    .collectAsMap

编辑：如何为每列值构建一个范围：

我们不是计算 M1 的最小值和最大值，而是为列的每个值计算它groupBy.

val min_max_map = df.groupBy("M1")
    .agg(min('trx), max('trx))
    .rdd.map(row => row.getAs[String]("M1") ->
      (row.getAs[Double]("min(trx)"), row.getAs[Double]("max(trx)")))
    .collectAsMap // maps each column value to a tuple (min, max)

然后我们调整 UDF 以便它使用这个映射，我们就完成了。

// for clarity, let's define a function that generates histogram ranges
def generate_ranges(min_trx : Double, max_trx : Double, hist_size : Int) = {
    val hist_step = (max_trx - min_trx) / hist_size
    (1 until hist_size).scanLeft(min_trx)((a, _) => a + hist_step) :+ max_trx
}
// and use it to generate one range per column value
val range_map = min_max_map.keys
    .map(key => key ->
        generate_ranges(min_max_map(key)._1, min_max_map(key)._2, hist_size))
    .toMap

val range_index = udf((x : Double, m1 : String) =>
                       range_map(m1).lastIndexWhere(x >= _))

最后只需替换即可range_index('trx) by range_index('trx, 'M1)每列值都有一个范围。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

直方图 - 以并行方式进行的相关文章

Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
Scala 警告、IntelliJ 和编译器标志

我目前正在试用 IntelliJ Scala 插件有件事让我有点烦恼编译时我收到 3 个警告 Warning scala Recompiling 4 files Warning scala Warning scala there wer
如何初始化子类型中特征的值？

如果我写 trait T val t 3 val u 1 t Nil class U extends T override val t 2 new U u 它表明了这一点 List 1 0 我应该如何更改上面的代码以使其显示以下内容 Lis
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
scala.math.BigDecimal ：1.2 和 1.20 相等

将 Double 或 String 转换为 scala math BigDecimal 时如何保持精度和尾随零用例在 JSON 消息中属性的类型为 String 值为 1 20 但是在 Scala 中读取这个属性并将其转换为 BigD
如何使用 FS2 中的分类器函数对对象进行分组？

我有一个无序的流measurements 我想将其分组为固定大小的批次以便以后可以有效地保留它们 val measurements for id lt Seq foo bar baz value lt 1 to 5 yield id va
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
相当于 scala 中的 python repr()

有没有相当于Python的东西reprscala 中的函数即您可以给任何 scala 对象提供一个函数它将生成该对象的字符串表示形式该对象是有效的 scala 代码 eg val l List Map 1 gt a print re
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
WSClient - 打开的文件太多

我正在 CentOS 6 上使用 Play Framework 2 4 我的应用程序抛出此异常 java net SocketException Too many open files 我在 Stack Overflow 上搜索了很多主题并
Scala 隐式转换范围问题

采取这个代码 class Register var value Int 0 def getZeroFlag Boolean value 0x80 0 object Register implicit def reg2int r Regist
在 Scala 中反转地图的优雅方法

目前正在学习Scala 需要反转Map 来进行一些反转值 gt 键查找我一直在寻找一种简单的方法来做到这一点但只想到了 Map origMap map kvp gt kvp 2 gt kvp 1 有人有更优雅的方法吗假设值是唯一的则
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也

随机推荐

Laravel：在哪里存储全局数组数据和常量？

我刚刚开始使用 Laravel 我需要重写几年前制作的整个系统使用 Laravel 4 作为基础框架在我的旧系统中我曾经有一个constant php声明了一些常量的文件以及globals php文件包含大量数组集例如类别状态
Babel：replaceWithSourceString 给出意外的标记 (1:1)

我正在尝试替换动态导入语句下面是一个检查导入是否以加号结尾的示例 module exports function babel return visitor ImportDeclaration function path state i
如何获取Appium服务器日志

有没有办法在测试脚本中获取 Appium 服务器日志 driver manage logs get appium server 或将 appium 服务器日志重定向到控制台我的主要目的是单独获取仪器日志而不是所有日志 info debug
有什么办法可以限制 Twitter 时间轴小部件中的推文吗？

我正在使用 Twitter 的时间轴小部件如下所示并且希望将推文数量限制为 5 默认情况下为 20 该网站是为使用屏幕阅读器的视障人士而嵌入的屏幕阅读器被困在小部件内用户被迫通过 Tab 浏览所有 20 条推文才能退出 Twitte
如何克隆 MemoryStream 对象？

我有一个MemoryStream经过的对象Stream类型参数 Stream是 C 中的抽象类我想克隆它以创建另一个单独的MemoryStream对象与原始对象的当前位置并创建一个新的XMLReader出来所以我将能够阅读其内容这就是
取消引用 void 指针时的reinterpret_cast 行为

在与某人争论他在评论中提出的建议时这个答案 https stackoverflow com a 21177728 241631 我遇到了一些 gcc4 8 和 VS2013 拒绝编译的代码但 clang 很高兴地接受它并显示正确的结果 i
如何强制 GHC 内联 FFI 调用？

我制作了小型 C 模块来提高性能但 GHC 不内联外部函数并且调用成本消除了加速例如 test h int inc int x test c include test h int inc int x return x 1 Test h
Haskell 树木地图

我的树定义为 data Tree a Leaf a Node Tree a Tree a deriving Show 我还声明了一个测试树 myTree Node Node Leaf 1 Leaf 2 Leaf 3 我想要做的是创建一个函数
接连显示 UIMenuController 的问题

我正在使用 UIMenuController 的新自定义功能将复制以外的内容添加到菜单中以便剪切并粘贴到 Web 视图中我所做的就是获取对共享 UIMenuController 的引用将 UIMenuItems 的 NSArray
确定从 spacy 中提取的文本是否是一个完整的句子

我们正在研究从 PDF 中提取的句子问题是它包括标题页脚目录等有没有办法确定我们将文档传递给spacy时得到的句子是否是一个完整的句子有没有办法过滤句子的某些部分例如标题一个完整的句子至少包含一个主语一个谓语一个宾语并以
如何使用 Dagger 2 在 Activity 或 Fragment 范围内交换测试双精度？

编辑小心我已经删除了这个问题中提到的旧存储库请参阅我自己对问题的回答以获取可能的解决方案并随时改进它我指的是我的帖子here https stackoverflow com questions 40405839 dagger 2
如何将文件夹上传到 Google Colab？

我想运行一个使用目录中定义的许多头文件的笔记本所以基本上我想将整个目录上传到 Google Colab 以便我可以运行笔记本但我无法找到任何此类选项只能上传文件而不是完整的文件夹那么有人可以告诉我如何将整个目录上传到 google
如何阻止 Maven 重命名已安装的 jar

我正在使用 mvn install install 命令将我们的内部文件安装到 Maven 存储库以这种方式安装的所有 Jars 都会自动添加版本名称作为后缀由于我们有许多带有 Jars 名称的批处理脚本这对我们来说非常不方便如何关
Backbone 和 TypeScript，一段不幸的婚姻：构建类型安全的“get”？

我正在尝试将 TypeScript 与 Backbone js 一起使用它有效但是 Backbone 的 get 和 set 失去了大部分类型安全性我正在尝试编写一个可以恢复类型安全的辅助方法像这样的事情我会将其放入我的模型中
Alsa全双工通信

我想使用alsa实现全双工通信我首先编写了捕获和回放程序并使用 UDP 通信将数据从捕获的进程传输到回放进程当我运行两个进程时工作正常其中一个正在捕获另一个正在播放将其视为从 A 到 B 的半双工当我尝试实现另一个半双工从
TortoiseSVN：移动文件不保留历史记录

我试图将文件移动到 TortoiseSVN 存储库内的另一个文件夹但修订历史记录未保留我尝试使用 Repo 浏览器移动文件右键单击拖动文件并选择将项目移动到此处以及工作文件夹中的文件右键单击拖动选择 SVN 将版本化文件移动到
我可以在 .net 3.5 中调用 .net 2.0 dll 吗？

我正在迁移到 net 3 5 我想知道我是否可以从 3 5 应用程序调用旧的 net 2 0 dll 的方法一些外部 API 位于 net 2 0 dll 中所以我需要那些请告诉我谢谢是的你可以这么做
LaTeX 矩阵在 Github Markdown 上无法正确渲染

我试图表示一个基本向量以下代码适用于 Visual Studio Code 我正在使用以下行 begin bmatrix X Y end bmatrix 所有空格均已删除它应该看起来像这样 https i stack imgur com
RabbitMQ 在 CreateModel() 方法上关闭了连接

我正在尝试运行教程中的 Producer 示例但 RabbitMQ 关闭了连接但出现异常抛出异常 RabbitMQ Client dll 中的 RabbitMQ Client Exceptions OperationInterrupt
直方图 - 以并行方式进行

Id M1 trx 1 M1 11 35 2 M1 3 4 3 M1 10 45 2 M1 3 95 3 M1 20 95 2 M2 25 55 1 M2 9 95 2 M2 11 95 1 M2 9 65 1 M2 14 54 通过上面的

直方图 - 以并行方式进行

直方图 - 以并行方式进行 的相关文章

随机推荐

热门标签

直方图 - 以并行方式进行的相关文章