用平均值替换缺失值 - Spark Dataframe

2024-03-02

我有一个 Spark Dataframe，其中缺少一些值。我想通过用该列的平均值替换缺失值来执行简单的插补。我对 Spark 很陌生，所以我一直在努力实现这个逻辑。到目前为止，这是我设法做到的：

a) 要对单个列（假设是 A 列）执行此操作，这行代码似乎有效：

df.withColumn("new_Col", when($"ColA".isNull, df.select(mean("ColA"))
  .first()(0).asInstanceOf[Double])
  .otherwise($"ColA"))

b）但是，我无法弄清楚如何对数据框中的所有列执行此操作。我正在尝试 Map 函数，但我相信它循环遍历数据帧的每一行

c）SO上有一个类似的问题 -here https://stackoverflow.com/questions/38356476/spark-replace-null-values-in-dataframe-with-mean-of-column。虽然我喜欢这个解决方案（使用聚合表和合并），但我非常想知道是否有一种方法可以通过循环遍历每一列来实现这一点（我来自 R，因此使用高阶函数循环遍历每一列，例如lapply 对我来说似乎更自然）。

Thanks!

火花 >= 2.2

您可以使用org.apache.spark.ml.feature.Imputer（支持均值和中值策略）。

Scala :

import org.apache.spark.ml.feature.Imputer

val imputer = new Imputer()
  .setInputCols(df.columns)
  .setOutputCols(df.columns.map(c => s"${c}_imputed"))
  .setStrategy("mean")

imputer.fit(df).transform(df)

Python:

from pyspark.ml.feature import Imputer

imputer = Imputer(
    inputCols=df.columns, 
    outputCols=["{}_imputed".format(c) for c in df.columns]
)
imputer.fit(df).transform(df)

火花

给你：

import org.apache.spark.sql.functions.mean

df.na.fill(df.columns.zip(
  df.select(df.columns.map(mean(_)): _*).first.toSeq
).toMap)

where

df.columns.map(mean(_)): Array[Column]

计算每列的平均值，

df.select(_: *).first.toSeq: Seq[Any]

收集聚合值并将行转换为Seq[Any]（我知道这不是最理想的，但这是我们必须使用的 API），

df.columns.zip(_).toMap: Map[String,Any]

creates aMap: Map[String, Any]它从列名称映射到其平均值，最后：

df.na.fill(_): DataFrame

使用以下方法填充缺失值：

fill: Map[String, Any] => DataFrame

from DataFrameNaFunctions.

忽略NaN您可以替换的条目：

df.select(df.columns.map(mean(_)): _*).first.toSeq

with:

import org.apache.spark.sql.functions.{col, isnan, when}


df.select(df.columns.map(
  c => mean(when(!isnan(col(c)), col(c)))
): _*).first.toSeq

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

apachesparksql

imputation

用平均值替换缺失值 - Spark Dataframe 的相关文章

Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
如何使用scala获取elasticsearch中_delete_by_query api的状态

我正在 scala 中向 elasticsearch 发送 HTTP post Http s http elkIp 5051 indexName delete by query postData s query terms zip id k
Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
Pandas 数据帧中任意两连续行之间差异的平均值

我有一个数据框 name date quantity A 2016 12 02 20 A 2016 12 04 5 A 2016 11 30 10 B 2016 11 30 10 我想做的是计算对于任何一对连续的名称的日期按时间顺序连续
从另一个数据帧创建一个数据帧（使用数据透视）

我对熊猫有疑问我有一个包含三列的数据框 id1 id2 amount 由此我想创建另一个数据框其索引为 id1 其列为 id2 单元格包含相应的金额我们来看一个例子 import pandas as pd df pd DataFr
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
Scala：类型参数中的问号

我试图理解以下代码来自 Scalaz 库 def kleisliIdApplicative R Applicative Kleisli Id R 我假设一种形式T P0 是一个带有参数的类型构造函数但是我无法找到解释类型参数中问号用法的
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
在 scala 宏中使用 LabelDef (2.10)

我正在尝试 scala 2 10 宏功能我使用时遇到问题LabelDef但在某些情况下在某种程度上我偷看了编译器的代码阅读了摘录米格尔加西亚的论文 http lampwww epfl ch magarcia但我还是卡住了如果我的
如何通过删除 Scala 中的一个元素来从列表中获取所有可能的子列表？

我有一个清单List 1 2 3 4 并希望通过删除一个元素来获得所有子列表 List 2 3 4 List 1 3 4 List 1 2 4 List 1 2 3 做到这一点最简单的方法是什么如果你的意思是离开每个position在列
Pandas dataframe.hist() 更改子图上的标题大小？

我正在使用 pandas Python 操作 DataFrame 我的数据是 10000 行 X 20 列我正在将其可视化如下所示 df hist figsize 150 150 但是如果我将 Figsize 增大每个子图的标题即
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
sbt 找不到启动器 jar：./bin/sbt-launch.jar

我已经成功地使用 sbt 进行基本的 Scala 编译好几年了但有一天它由于某种原因停止工作我在自己的帐户中使用它但我决定让我的系统管理员在我们的本地网络上安装最新版本当我尝试运行它时我得到找不到启动器 jar bin sbt
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
要在子集中显示的非数字条目的维恩图

我有以下数据框 SET1 SET2 SET3 par1 par2 par1 par2 par3 par2 par3 par4 par5 我想制作一个维恩图其中所有这些 parX 元素都显示在各自的子集中即作为标签而不仅仅是重叠元素的数

随机推荐

当 Task.Status 更改为正在运行时，有没有办法收到通知？

我正在编写一个运行任务并基于通知的类this https msdn microsoft com en us magazine dn605875 aspx 我想不出解决方案的一个问题是如何在 Task Status 离开时发出通知TaskSt
如何在Java、SQL、ORM中使用money数据类型

在 Java 应用程序中使用货币数据类型的最佳实践是什么钱应该是双变量吗四舍五入货币等又如何呢有专门的图书馆吗最流行数据库中的 ORM 和 SQL 又如何呢据我所知并非所有 SQL 引擎中都是 Money 数据类型在这种情况
如果值为负数，如何更改文本颜色？

我正在开发一个网络应用程序它可以在整数之间进行加法我有两个函数叫做num1 and num2 获取两个整数作为用户的输入如果两个整数之和为负数我想更改结果输出文本颜色我如何使用 JavaScript 来做到这一点我看过很多 jQ
Spring MVC：和标签之间的区别？ [复制]

这个问题在这里已经有答案了前几天开始研究这个Spring Hello World教程 http viralpatel net blogs spring 3 mvc create hello world application spring
CSS渐变棋盘图案

I want to create a checkerboard pattern using gradients I ve found an example and modified it to my needs however it onl
如何在 Mac 上通过终端访问 XAMPP/Lampp 文件夹

我最近开始在 Mac 上使用 XAMPP 它在共享下安装了 lampp 文件夹并在 Finder 中显示为 IP 地址因此我可以通过 Finder 访问这些文件但无法通过终端 cd 进入该文件夹共享文件夹根本不可见我尝试 V
无法通过 docker-letsencrypt-nginx-proxy-companion 启用 ssl

我想通过以下方式启用 ssldocker letsencrypt nginx proxy companion 这是 docker compose yml version 3 3 services nginx proxy image jwil
返回选定的指定列

我想从某个 Blob 表中仅选择几列我有以下字段 Id RowVersion Size Signature Blob 我只想选择前四个我这样做 gt 是一个错误的地方 public List
从 http 而不是 https 加载图像时出现 403 错误

我的问题类似于this one https stackoverflow com questions 22958559 403 when trying to download a remote image 但我只使用 html 和 javas
打乱 SSE 寄存器中的偶数和奇数值

我用 16 位值加载两个 SSE 128 位寄存器这些值按以下顺序排列 src 0 E 3 O 3 E 2 O 2 E 1 O 1 E 0 O 0 src 1 E 7 O 7 E 6 O 6 E 5 O 5 E 4 O 4 我想要实现的是
如何从 Xcode 的代码补全中排除某些术语？（自动完成、内容辅助）

众所周知 Xcode 的代码补全功能非常棒同时也是必要的但有时它也可能很烦人有什么方法可以修改可能的完成结果列表吗例如我一直在使用 CGSizeMake 但从来不想使用首先建议的 CGSizeMakeWithDictionaryR
应按什么顺序释放 COM 对象和垃圾收集？

关于释放 COM 对象和垃圾收集有很多问题但我找不到专门解决这个问题的东西当释放 COM 对象在本例中具体为 Excel Interop 时我应该按什么顺序释放引用并调用垃圾回收在某些地方例如here https stacko
如何将 jquery ui 可拖动可排序内容与自定义比例代码结合起来？

我正在尝试将我的可拖动可排序内容与一些适合我的比例代码结合起来我只是还没找到好的解决方案看看那个 http jsfiddle net UXLAE 7 http jsfiddle net UXLAE 7 我已经注释掉了比例代码以便您可以
Minio：存储桶策略与匿名/授权访问有何关系？

Minio 有以下政策每个桶 https github com minio minio java blob 6a4cf897df8c55cf4b46ed32617bf8bf41efe53c api src main java io min
保存已创建的实时照片

我有一些创建了 JPEG 和 MOV 文件的实时照片现在我想将它们导入到应用程序中该应用程序将允许用户将实时照片保存到他们的照片库中我该怎么做呢我调查过这个 https github com genadyo LivePhotoDem
在 .NET 中使用线程本地存储的最佳实践是什么？

我的应用程序中有一个要求我认为可以通过使用线程本地存储来满足但我想知道这是否是最好避免的事情之一我读过一些关于这个主题的文章 http www dotnetcoders com web Articles ShowArticle asp
在散景中动态添加小部件

我想在散景中动态添加滤镜即每次按下按钮时都会附加一个新的滤镜然而添加新的小部件后布局会被破坏新的小部件会覆盖旧的小部件而不是重新计算布局代码示例 from bokeh layouts import row column fr
Unix：cat-ing 文件自身 - 为什么这会清空文件？ [复制]

这个问题在这里已经有答案了有人可以向我解释一下为什么这段代码有效吗即 file2 txt 是 file1 txt 按字母顺序排序的内容 cat file1 txt sort gt file2 txt 但是当我这样做时 file1 txt
Emacs .dir-locals.el - 设置键绑定

我不确定这是否可行但我想通过使用设置一些项目特定的键绑定 dir locals el 当然 dir locals el必须包含一个特殊的设置列表所以我不能这样做 global set key 24 down move text down
用平均值替换缺失值 - Spark Dataframe

我有一个 Spark Dataframe 其中缺少一些值我想通过用该列的平均值替换缺失值来执行简单的插补我对 Spark 很陌生所以我一直在努力实现这个逻辑到目前为止这是我设法做到的 a 要对单个列假设是 A 列执行此操作这

用平均值替换缺失值 - Spark Dataframe

用平均值替换缺失值 - Spark Dataframe 的相关文章

随机推荐

热门标签