Spark柱状性能

2023-12-19

我对 Spark 是一个相对初学者。我有一个宽数据框（1000 列），我想根据相应列是否缺少值来添加列



+----+          
| A  |
+----+
| 1  |
+----+
|null|     
+----+
| 3  |
+----+

becomes



+----+-------+          
| A  | A_MIS |
+----+-------+
| 1  |   0   |
+----+-------+
|null|   1   |
+----+-------+
| 3  |   1   |
+----+-------+

这是自定义机器学习转换器的一部分，但算法应该很清晰。

override def transform(dataset: org.apache.spark.sql.Dataset[_]): org.apache.spark.sql.DataFrame = {
  var ds = dataset
  dataset.columns.foreach(c => {
    if (dataset.filter(col(c).isNull).count() > 0) {
      ds = ds.withColumn(c + "_MIS", when(col(c).isNull, 1).otherwise(0))
    }
  })


  ds.toDF()
}

循环列，如果 > 0 个空值则创建一个新列。

传入的数据集被缓存（使用 .cache 方法），相关配置设置为默认值。目前，它在一台笔记本电脑上运行，即使行数极少，运行 1000 列也需要 40 分钟左右。我认为问题是由于访问数据库造成的，因此我尝试使用镶木地板文件，但得到了相同的结果。查看作业 UI，它似乎正在执行文件扫描以进行计数。

有没有办法改进这个算法以获得更好的性能，或者以某种方式调整缓存？增加spark.sql.inMemoryColumnarStorage.batchSize只会给我带来OOM错误。

删除条件：

if (dataset.filter(col(c).isNull).count() > 0)

并只留下内部表达。正如所写，Spark 需要 #columns 数据扫描。

如果您希望修剪列计算一次统计信息，如中所述使用 Pyspark 计算 Spark 数据帧每列中非 NaN 条目的数量 https://stackoverflow.com/q/33900726/8371915，并使用单个drop call.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark柱状性能的相关文章

错误：无法在 scala 中找到或加载主类

安装 eclipse scala 插件和 eclipse maven scala 插件后我是 scala 新手所以我尝试确保在测试 scala hello world 项目后环境正常工作它按预期工作但我在尝试执行我从公司存储库中签出
scala.math.BigDecimal ：1.2 和 1.20 相等

将 Double 或 String 转换为 scala math BigDecimal 时如何保持精度和尾随零用例在 JSON 消息中属性的类型为 String 值为 1 20 但是在 Scala 中读取这个属性并将其转换为 BigD
Build.scala中%和%%符号含义

我是新来玩的 Framework 2 1 java版本并且没有scala经验我不明白什么是以及什么是 and 在 Build scala 中表示我用谷歌搜索了它们但找不到它们的含义在我的 Build scala 文件中我有 org
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
Scala 匿名函数中的 return 语句

为什么显式 return 语句使用return关键字在匿名函数中从封闭的命名函数返回而不仅仅是从匿名函数本身返回例如以下程序会导致类型错误 def foo String x Integer gt return x foo 我知道建
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
Jack（Java Android 编译器套件）将如何影响 Scala 开发人员

现在随着公告Jack https source android com source jack html谷歌阐明了 Java 与 Android 相关的可预见的未来但这对 Scala 和其他基于 JVM 的语言开发人员有何影响尤其 Sc
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
Scala apply 方法调用，因为括号与隐式参数冲突

Cay Horstmann 的书 Scala for the Impressive 中有一段关于 apply 方法的注释有时表示法会与另一个 Scala 功能发生冲突隐式参数例如表达式 Bonjour sorted 3 产生错误
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
导入 sbt 项目时出错，服务器访问错误，未解决的依赖项

我正在尝试从 IntelliJ IDE 15 0 2 的 build sbt 中导入我的项目中的库我不断收到未解决的依赖项错误我尝试更新不同论坛的设置来解决该问题但没有任何效果我尝试过的几件事使用代理设置更新 sbtconfig
如果需要，Akka actor 可以从邮箱中删除消息吗？

例如如果我想从队列中删除冗余消息这样当演员收到Connect消息它应该检查它的邮箱并删除其他Connect消息以便只进行一个连接而不是多个连接这样的事情可能吗是的您可以将参与者调度程序配置为具有您选择的任何邮箱因此如果您实现
如何将 JVM 选项传递给 SBT 以在运行应用程序或测试用例时使用？

我想在运行我的应用程序或通过 SBT 对应用程序进行测试时指定 JVM 选项具体来说我需要能够为 JVM 提供 Djava security policy 参数以便加载我的策略并用于测试我怎样才能用 SBT 做到这一点 With x

随机推荐

python 中的进程是否有自己的 os.environ 副本？

我想知道 python 中的进程是否有自己的副本os environ IE 设置安全吗os environ来自进程是否保证它不会被另一个进程覆盖 import os import time import random from multi
如何通过ItemWriter向多个表插入数据

如何通过ItemWriter向多个表中插入数据 ItemWriter 通过 ItemReader 获取输入它从多个表中选择数据它应该一步完成此操作有人可以帮忙吗您可以使用复合作家 http static springsource o
jQuery Tipsy 无法与 jQuery.each() 和 live:true 一起使用

注意这个问题被标记为已解决一次但它发现升级到最新的 jQuery 仅修复了一个问题有关剩余问题请参阅下面更新的问题 Hi all 我刚刚遇到了 jQuery Tipsy 的一个奇怪问题这是一个简化的演示小提琴 http jsfid
我可以在 C++ 中将 int 与 boolean 相乘吗？

我的 GUI 中有一个显示图表的小部件如果我有多个图表 GUI 上的矩形中将会显示一个图例我有一个QStringlist legendText 其中包含传说的文本如果不需要图例 legendText会是空的如果还有传说的话legen
如何在 android SoftKeyBoard 中添加 Go 按钮及其功能？

我想在 Android 应用程序软键盘中放置 Go 按钮对于搜索和其他相关场景任何人都可以指导我如何实现这一目标吗举例说明任何帮助将不胜感激最后我用 EditText SearchEditText EditText findVi
为什么同一个 JAR 文件每次构建时都有不同的哈希值？

我一直在考虑检查 jar 文件的哈希值以确定它是否已更改但事实证明每次构建同一个 jar 文件时它都有不同的哈希值从 eclipse 导出为 jar 文件或使用 maven 构建它我已经删除了清单文件的日期值和内容但它仍然不同
VBA Excel：编译错误：需要对象吗？

我在标记行中收到 VBA Excel 编译器错误需要对象错误我不明白原因顺便说一句希望 Excel 支持 Net 语言而无需包装器 Option Explicit Public Type Inherit ReqId As Inte
如何忽略展开字段 (CSV) 的特定子字段

我如何告诉 Jackson 跳过未包装的子 POJO 字段以便当我解析为 CSV 时它会跳过整个列这是完整的代码示例 public class FooTest class Foo String something value Json
Reactive Kafka：仅一次处理事务

最初通过 api 调用触发 1 Service A produces m1 to topic1 non transactional send 2 Service B consumes topic1 and does some process
Flutter - android.os.ParcelableException：java.io.IOException：仅请求内部，但空间不足

我想第一次运行flutter 我使用 VS code 并运行flutter doctor验证我的安装 Doctor summary to see all details run flutter doctor v Flutter Channe
从另一个工作簿运行 Excel 宏

我有一个位于服务器上的宏我需要能够从连接到该服务器的不同工作站运行它目前我正在做 Application Run L database lcmsmacro macro1 xlsm macro name 我收到的错误消息是宏可能在此工作
在交互式地图上叠加 shapefile 或栅格

我正在使用 R 并且我想在交互式地图上叠加一些栅格数据例如模型的温度图以允许平移和缩放理想情况下我想覆盖 Google 地图或 OpenStreetMaps 输入数据可以是 shapefile KML raster数据或任何有用的东
@mock.patch 如何知道每个模拟对象使用哪个参数？

看这个网页 http www toptal com python an introduction to mocking in python http www toptal com python an introduction to mock
为什么 Bootstrap 导航栏总是折叠的？ [复制]

这个问题在这里已经有答案了我更新到了 ng bootstrap 的 v1 0 beta 现在导航栏总是折叠的当我单击汉堡包来切换菜单时它会打开但垂直而不是水平显示内容我已经包含了下面的导航代码和以前一样此时我无法弄清楚问题是否
在 Wand 中执行 +level ImageMagick 操作的方法？

使用 level ImageMagick 运算符 https imagemagick org script command line options php level https imagemagick org script comman
Android - ListView 向左/向右滑动，就像三星联系人 ListView 一样

我正在开发一个应用程序我需要一个类似于我的三星 Galaxy S 的联系人列表视图的列表视图当我向右滑动手指时我可以向该联系人发送消息当我向右滑动手指时我可以呼叫我的联系人我有我的 ListView 只需要执行此操作的功能提前
在 Opencv 中仅使用平移、旋转和缩放计算单应性

我确实有两组点我想找到它们之间的最佳转换在 OpenCV 中您有以下功能 Mat H Calib3d findHomography src points dest points 使用 RANSAC 返回一个 3x3 单应性矩阵我现在
EF4.1 DbSet 与 EF4 ObjectContext 和单元测试

我目前有一个使用 EF4 启动的项目并在事后返回并添加单元测试我正在使用EF4 POCO T4 模板 http visualstudiogallery msdn microsoft com 23df0450 5677 4926 96cc
如何在javascript中动态添加项目到数组

首先我是一个完全的 JavaScript 新手所以请耐心等待我有以下脚本使用 Highchart 框架绘制饼图 function var options colors 66CC00 FF0000 FF6600 chart render
Spark柱状性能

我对 Spark 是一个相对初学者我有一个宽数据框 1000 列我想根据相应列是否缺少值来添加列 so A 1 null 3 becomes A A MIS 1 0 null 1 3 1 这是自定义机器学习转换器的一部分但算法应该很清

Spark柱状性能

Spark柱状性能 的相关文章

随机推荐

热门标签

Spark柱状性能的相关文章