如何使用withColumn计算列中的最大值？

2024-01-10

我正在尝试计算 Spark 中以下 DataFrame 的最大值1.6.1:

val df = sc.parallelize(Seq(1,2,3)).toDF("id")

第一种方法是选择最大值，它按预期工作：

df.select(max($"id")).show

第二种方法可以是使用withColumn如下：

df.withColumn("max", max($"id")).show

但不幸的是它失败并出现以下错误消息：

org.apache.spark.sql.AnalysisException：表达式“id”既不是存在于 group by 中，也不是聚合函数。添加到群组如果您不关心哪个值，则可以通过或包装在first()（或first_value）中你得到。;

如何计算a中的最大值withColumn功能没有任何Window or groupBy？如果不可能，在这种特定情况下我该如何使用Window?

正确的方法是将聚合作为单独的查询进行计算，并与实际结果相结合。与此处许多答案中建议的窗口函数不同，它不需要洗牌到单个分区，并且适用于大型数据集。

可以做到withColumn使用单独的操作：

import org.apache.spark.sql.functions.{lit, max}

df.withColumn("max", lit(df.agg(max($"id")).as[Int].first))

但使用显式的方式要干净得多：

import org.apache.spark.sql.functions.broadcast

df.crossJoin(broadcast(df.agg(max($"id") as "max")))

或隐式交叉连接：

spark.conf.set("spark.sql.crossJoin.enabled", true)

df.join(broadcast(df.agg(max($"id") as "max")))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

apachesparksql

aggregatefunctions

如何使用withColumn计算列中的最大值？的相关文章

如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
使用 dtypes read_csv 但列中没有值[重复]

这个问题在这里已经有答案了我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
从 data.frame 在 ggplot 图例中添加信息

我想在图例中添加信息哪个传感器具有该值这是我的代码 z lt data frame a c sensor 1 sensor 2 sensor 3 sensor 4 sensor 5 sensor 6 sensor 7 sensor 8
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Pandas 按唯一列值拆分数据框[重复]

这个问题在这里已经有答案了我有一个数据框正在输出到名为所有数据的电子表格中假设此数据包含企业地址街道城市邮政编码州的列但是我还想为包含完全相同的列的每个唯一状态创建一个工作表我的基本想法是使用迭代每一行df iterr
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5

随机推荐

如何在 java/jsp 中执行 MS SQL Server 存储过程并返回表数据？

我在从 Java jsp 执行 MS SQL Server 存储过程时遇到困难我希望返回一组数据存储过程的最后一行是来自表的常规选择语句从这一点来看执行存储过程是轻而易举的事PHP 我查看了这些网站以寻求帮助 www 2netave
尝试以编程方式使用 data.table 时，特定情况下出现“1 级无此类索引”错误

问题我编写了一个函数来以编程方式使用 data table 函数如下 transformVariables4 lt function df 1n data c 1n variablesToTransform c 1n newVariabl
带日期的 Excel Open XML 的最小样式表？

我正在尝试使用 Open XML SDK 创建一个 Excel 文件其中包含所需的最少样式表该样式表将允许我将单元格格式设置为日期以下是我对样式表的尝试
无法通过 Amazon Athena 读取 json 文件

尝试在示例 JSON 文件 90MB 上测试 Athena 我已将文件放入 S3 中并尝试了以下操作使用 Amazon Glue 爬网 JSON 文件所在的文件夹一切似乎都按顺序进行但是当我尝试在 Athena 上查询时出现内部
Ninject，将构造函数参数传递给内核

这是我的问题每次我从内核请求一个实例时我想将其中一个值传递给构造函数我在下面写了一些代码来说明这个问题测试没有失败所以我猜这可行但它看起来确实很丑陋使用 Ninject 是否有更好更简洁的方法来完成此任务或者我应该重新考虑
App Engine 之外的 db.model from_protobuf() 等效项？

在 Google AppEngine GAE 环境中我可以执行以下操作将 Protobuf 字节串转换回数据存储模型 from google appengine ext import db byte str model db model
平铺可绘制有时会拉伸

我有一个 ListView 其项目具有平铺背景为了实现这一点我使用以下可绘制 xml
如何减少 Spark 运行时输出的冗长程度？

如何减少 Spark 运行时产生的跟踪信息量默认值太冗长如何关闭它并在需要时打开它 Thanks 详细模式 scala gt val la sc parallelize List 12 4 5 3 4 4 6 781 scala gt
Java中数组是对象吗？

在Java中我们可以使用以下方式声明一个数组 String array new String 10 int size array length 这是否意味着数组本身就是一个对象我问因为在 C 中数组只是一个指针并且没有任何方法 Yes
Docker：来自守护程序的错误响应：rpc 错误：代码 = 2 desc =“oci 运行时错误：exec 格式错误”

我写了下面的docker文件 FROM cloudera quickstart MAINTAINER abhishek http www foobar com ADD SparkIntegrationTestsAssembly jar AD
如果将窗体大小调整为以前的透明区域，则不再检测窗体上的鼠标事件

这似乎是一个错误如果将表单大小更改为以前的透明区域则将不再检测到鼠标事件如何重现它创建一个新的Windows窗体项目将 Form1 TransparencyKey 设置为洋红色 Add a Panel to Form1 and c
如何格式化 Highcharts 数据标签小数点

你能看一下吗这个例子 http jsfiddle net Behseini YKLUQ 1 让我知道如何格式化数据标签以仅显示两位十进制数字这是我在该系列中使用的数字格式 series name Tokyo data 7 554555 6
cmake 设置用于 boost 的链接器标志

我正在尝试编译一个 boost 教程示例http www boost org doc libs 1 36 0 doc html boost asio tutorial tutimer1 html http www boost org doc
线程与线程池

使用新线程和使用线程池中的线程有什么区别有哪些性能优势为什么我应该考虑使用池中的线程而不是我显式创建的线程我在这里特别考虑的是 NET 但一般的例子就可以了线程池将为频繁且相对较短的操作提供好处重用已创建的线程而不是创建新线程一
Azure 通用 v2 存储帐户和 BlockBlobStorage 帐户之间的差异有何解释？

我想在 Azure 中创建一些新的存储帐户当然我想知道针对不同情况哪种最适合且最便宜据我所知唯一与我相关的帐户是通用 v2 帐户 https learn microsoft com de de azure storage comm
Azure CLI 存储集 cors - 意外令牌

我正在尝试如上所述设置 CORShere https stackoverflow com questions 32167509 azure storage cors但有一个错误 azure storage cors set blob sta
DataGrid：帮助访问 CellEditingTemplate 中定义的控件

我将 WPF DataGrid 与 DataGridTemplateColumn 一起使用 DataGridTemplateColumn CellEditingTemplate 包含一个 IsEditable 设置为 true 的 Comb
如何在html中正确显示纵向模式的图像？

我在我的网站上使用一些简单的照片其中一些是横向模式另一些是纵向模式我使用最基本的 html img src doc 54836abcc1a36b7526daa146 当我访问该网址时 doc 54836abcc1a36b7526daa
无法在 dockerfile 内执行 gcloud init

我制作了一个 Dockerfile 用于将我的 node js 应用程序部署到 google 容器引擎中它如下所示 FROM node 0 12 COPY google cloud sdk google cloud sdk RUN goo
如何使用withColumn计算列中的最大值？

我正在尝试计算 Spark 中以下 DataFrame 的最大值1 6 1 val df sc parallelize Seq 1 2 3 toDF id 第一种方法是选择最大值它按预期工作 df select max id show 第

如何使用withColumn计算列中的最大值？

如何使用withColumn计算列中的最大值？ 的相关文章

随机推荐

热门标签

如何使用withColumn计算列中的最大值？的相关文章