将列从一个数据帧添加到 scala 中的另一个数据帧[重复]

2023-12-28

我有两个行数相同的 DataFrame，但列数不同，并且根据源是动态的。

第一个 DataFrame 包含所有列，但第二个 DataFrame 被过滤和处理，不包含所有其他列。

需要从第一个 DataFrame 中选择特定列并与第二个 DataFrame 添加/合并。

val sourceDf = spark.read.load(parquetFilePath)
val resultDf = spark.read.load(resultFilePath)

val columnName :String="Col1"

我尝试了多种方式添加，这里我只给出其中几种......

val modifiedResult = resultDf.withColumn(columnName, sourceDf.col(columnName))

val modifiedResult = resultDf.withColumn(columnName, sourceDf(columnName))
val modifiedResult = resultDf.withColumn(columnName, labelColumnUdf(sourceDf.col(columnName)))

这些都不起作用。

您能否帮助我将第一个数据帧中的列合并/添加到第二个数据帧中。

给定的示例不是我需要的确切数据结构，但它将满足我解决此问题的要求。

输入输出示例：

Source DataFrame:
+---+------+---+
|InputGas|
+---+------+---+
|1000|
|2000|
|3000|
|4000|
+---+------+---+

Result DataFrame:
+---+------+---+
| Time|CalcGas|Speed|
+---+------+---+
|  0 | 111| 1111|
|  0 | 222| 2222|
|  1 | 333| 3333|
|  2 | 444| 4444|
+---+------+---+

Expected Output:
+---+------+---+
|Time|CalcGas|Speed|InputGas|
+---+------+---+---+
|  0|111 | 1111 |1000|
|  0|222 | 2222 |2000|
|  1|333 | 3333 |3000|
|  2|444 | 4444 |4000|
+---+------+---+---+

实现此目的的一种方法是使用join

如果两个数据框中都有一些共同的列，那么您可以对该列执行联接并获得您想要的结果。

Example:

import sparkSession.sqlContext.implicits._

val df1 = Seq((1, "Anu"),(2, "Suresh"),(3, "Usha"), (4, "Nisha")).toDF("id","name")
val df2 = Seq((1, 23),(2, 24),(3, 24), (4, 25), (5, 30), (6, 32)).toDF("id","age")

val df = df1.as("df1").join(df2.as("df2"), df1("id") === df2("id")).select("df1.id", "df1.name", "df2.age")
df.show()

Output:

+---+------+---+
| id|  name|age|
+---+------+---+
|  1|   Anu| 23|
|  2|Suresh| 24|
|  3|  Usha| 24|
|  4| Nisha| 25|
+---+------+---+

Update:

如果您在两个数据框中没有任何共同的唯一 ID，请创建一个并使用它。

import sparkSession.sqlContext.implicits._
import org.apache.spark.sql.functions._

var sourceDf = Seq(1000, 2000, 3000, 4000).toDF("InputGas")
var resultDf  = Seq((0, 111, 1111), (0, 222, 2222), (1, 333, 3333), (2, 444, 4444)).toDF("Time", "CalcGas", "Speed")

sourceDf = sourceDf.withColumn("rowId1", monotonically_increasing_id())
resultDf = resultDf.withColumn("rowId2", monotonically_increasing_id())

val df = sourceDf.as("df1").join(resultDf.as("df2"), sourceDf("rowId1") === resultDf("rowId2"), "inner").select("df1.InputGas", "df2.Time", "df2.CalcGas", "df2.Speed")
df.show()

Output:

+--------+----+-------+-----+
|InputGas|Time|CalcGas|Speed|
+--------+----+-------+-----+
|    1000|   0|    111| 1111|
|    2000|   0|    222| 2222|
|    3000|   1|    333| 3333|
|    4000|   2|    444| 4444|
+--------+----+-------+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

将列从一个数据帧添加到 scala 中的另一个数据帧[重复] 的相关文章

对列表中的相邻元素进行分组

假设我想编写一个函数来执行此操作输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组这个方法的名称应该是什么此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
在 pandas 中展开列表列时，是否有一种Python式的方法来添加枚举列？

考虑以下DataFrame gt gt gt df pd DataFrame A 1 2 3 B abc def ghi apply A int B list gt gt gt df A B 0 1 a b c 1 2 d e f 2 3
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
xts 函数不将我的 POSIXct 日期视为适当的基于时间的对象

我创建了一个包含两列的数据框 gt head data frame Date Rainfall 1 1992 01 06 14 00 00 0 3 2 1992 01 06 15 00 00 0 2 3 1992 01 06 16 00 0
为什么 iloc() 的一种使用会给出SettingWithCopyWarning，而另一种则不会？

在类的方法中我使用以下语句 self datacontainer iloc 1 c value 这样做我得到一个设置复制警告试图在 DataFrame 中的切片副本上设置一个值现在我尝试重现此错误并编写以下简单代码 import p
如何使用 `ProjectRef` 来引用 sbt 1.x 中的本地项目？

其他答案中有很多含糊不清的内容或者涉及到更旧版本的 sbt 即 0 12 x 但似乎没有人真正回答这个问题鉴于我有一个文件夹并且我已经运行 sbt new scala scala seed g8 name Scala Seed Pro
sbt：编译测试时设置特定的 scalacOptions 选项

通常我使用这组选项来编译 Scala 代码 scalacOptions Seq deprecation encoding UTF 8 feature unchecked language higherKinds language impli
sapply 函数从命名向量中的值填充数据帧的列，需要很长时间。有更快的方法吗？

这是我正在做的一个例子 x lt c a 2 b 4 c 2 d 9 df lt data frame names c d c a b x是一个命名向量其值的顺序与它们在中出现的顺序不同df names 我需要在数据框中形成一个新列该列
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Pandas read_sql 读取时更改大量 ID

我将 Oracle 数据库转移到 SQL Server 一切似乎都很顺利各种 ID 列都是很大的数字因此我不得不使用 Decimal 因为它们对于 BigInt 来说太大了我现在尝试使用 pandas read sql 使用 pyod
如何使用 pandas.to_excel() 创建 Excel **表格**？

Need the achieve this programmatically from a dataframe https learn microsoft com en us power bi service admin troublesh
内存泄漏在哪里？

我使用 InetAddress 来解析 IP 地址但现在如果 IP 不可用则需要存储主机名所以我介绍了一个班级Host case class Host name String ip InetAddress import Host ad
在包含缺失值的 Pandas 数据框列上使用 apply 和 lambda 函数

这是这个问题的后续如何根据 pandas 数据框中其他列中的子字符串创建新列 https stackoverflow com questions 70086559 how to create new column based on sub
为什么 Cassandra 客户端在生产中没有 epoll 时会失败？ [复制]

这个问题在这里已经有答案了当我在本地运行服务时我收到一条警告指出 epoll 不可用因此它使用 NIO 很公平当我将其部署到 Kubernetes 中时我得到了以下信息这导致服务无法运行 2017 03 29T19 09 22
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
使用无形类型不等式时如何自定义 Scala 模糊隐式错误

def typeSafeSum T lt Nat W lt Nat R lt Nat x T y W implicit sum Sum Aux T W R error R 7 x typeSafeSum 3 4 compilation er
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
数据帧中标志切换之间的行的总和/平均值

我有一个像这样的数据框 id power flag 0 20 0 1 25 0 2 26 1 3 30 1 4 18 0 5 30 0 6 19 0 7 21 1 8 23 0 我正在尝试获取行的平均值总和power柱子输出应该是这样的
如何优化 R 中的 sapply 来计算数据帧上的运行总计

我在 R 中编写了一个函数来按月份计算累积总数但随着数据集变大我的方法的执行时间呈指数增长我是一名 R 程序员新手你能帮我提高效率吗该函数以及我调用该函数的方式 accumulate lt function recordnum d
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame

随机推荐

Facebook 响应错误中的 "error_subcode": 33 是什么意思？

有谁知道这是什么意思error subcode 33 脸书回应错误我知道这与任务许可有关但我想百分百确定我们收到以下错误 error message Unsupported get request Object with ID XXX
如何将 Rails 应用程序从 2.3.5 升级到 3.2.x？

我有 Rails 2 3 5 应用程序我想升级到 3 2 x 如何升级到 Rails 3 2 x Thanks 我绝对推荐安装 Rails 升级 gem Rails升级宝石 https github com rails rails upg
库中的 Google Script HTML 表单抛出错误 Uncaught

我有一个 HTML 格式的库如下所示 code gs function openDialog SpreadsheetApp getUi showModalDialog HtmlService createHtmlOutputFromFil
正则表达式匹配除特定字符串之外的任何大写字符

我想匹配所有包含大写字符的行但忽略字符串A 为了增加复杂性我想忽略不同字符串之后的所有内容例如公开评论以下是应该匹配和不应该匹配的示例 Matches fooBar 富酒吧富 A fooBar fooBar 注释不匹配 C 不应触
查询 Jira 中当前活动项目的所有问题

我想创建一个在 Web 界面中处于活动状态的常规查询为当前选定的项目选择所有问题例如如果我有两个项目 PROJ1 PROJ2 要选择 PROJ1 的所有问题我将创建一个查询 Project PROJ1 但是如果我有多个项目我需要
Quartz Clustering - 服务器启动时重复触发器

在集群设置使用 JDBC 数据存储中使用 Quartz 2 1 6 和 Spring 3 1 时我们遇到了一个问题当前背景作业和 CRON 触发器在 spring 配置文件中定义见下文 SchedulerFactoryBean
使用 ColdFusion 将文件上传到 Google Drive

新更新以获得更好的第二部分现在进入 308 简历不完整即使文件应该只是一次上传我正在使用的基础cfgoogle来自雷卡姆登但谷歌已经弃用了文档上传的代码新标准是可断点续传媒体上传 https developers google
如何在 Windows 中为 Tomcat 设置 JAVA_OPTS？

我正在尝试设置JAVA OPTS对于 Windows 计算机上的 Tomcat 但如果添加多个变量我会不断收到错误消息例如这有效 set JAVA OPTS Xms512M 但这并不 set JAVA OPTS Xms512M Xmx
如何在 Postgresql 中获取字符串中的当前月份和年份

我想以字符串格式显示日期作为当前月份名称字符串和年份例如 gt 2019 年 9 月如何在 PostgreSQL 中为此编写查询我尝试了这个查询 select date date trunc month current date
StackOverflowError 之前有多少次递归调用？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
有条件分箱

是否可以在数据框中创建一个新列其中 X 的容器基于另一列的值下面的例子 AR1 PO1 和 RU1 的容器彼此不同到目前为止我只能获取 X 中所有值的容器 import pandas as pd import numpy as np
无法在 Selenium Webdriver 中使用 send_keys 上传文件

我在使用 Selenium Webdriver 和 Python 进行文件上传时遇到问题我昨天重新安装了 selenium 和 python 所以我很确定一切都是最新的如果有帮助的话我正在使用 Windows 7 我知道其他人问过这个
Diesel 中多个外键引用同一个表

我正在尝试创建一个引用同一个表两次的结构这样做的目的是创建一种类别层次结构这是我正在尝试对下表执行的操作 create table product category rollup id serial primary key upper
分解/重构程序

术语分解不良和重构程序是什么意思你能举一个简单的例子来理解基本的区别吗重构是一种通用技术可以涉及许多任务它通常意味着清理代码消除冗余提高代码质量和可读性一个非常简单的例子分解不当 code do task1 abc d
模板中公开的 kubernetes statefulsets 索引/序号

Statefulsets 指示 kubectl kubernetes 创建 pod 其索引或序号跟在 pod 名称后面例如如果实体的名称为 redis 并且复制计数为 3 那么我们将得到 redis 0 redis 1 和 redis
同一域上的 CloudFront 和 API 网关服务

我想要在我的域 www example com 上分发网站的静态部分 html css js 将 API Gateway 服务放在我的域上的文件夹 www example com v1 下我该如何实现这个目标在53号公路上据我了解我
Java 中是否有一个类公开无缓冲的 readLine 方法？

我正在清理工作中代码库的一些块其中一个较旧的类用于读取和写入数据该数据是 US ASCII 编码字符串和二进制编码原语的混合当前的实现使用数据输入流 http docs oracle com javase 6 docs api jav

CSS - 可以使用 CSS 而不是创建吗？
我正在创建一个基于设计师 Photoshop 模型的网站这是问题表的一部分我知道这可以很容易地使用 HTML 表格创建但由于表格应该用于数据所以我宁愿使用 CSS 我正在尝试弄清楚是否可以使用 3 个单独的列来创建此列一列用于单选

Redis 与服务总线的发布/订阅场景

我在 Azure 中有多个服务我想使用某种发布订阅服务来同步它们之间的更改我正在研究 Redis 和 Azure 服务总线要同步的数据非常简单大多数是最多 100 个字符的字符串我想知道我的首选选择是什么或者我的方向是否正确

将列从一个数据帧添加到 scala 中的另一个数据帧[重复]

这个问题在这里已经有答案了我有两个行数相同的 DataFrame 但列数不同并且根据源是动态的第一个 DataFrame 包含所有列但第二个 DataFrame 被过滤和处理不包含所有其他列需要从第一个 DataFrame 中选

热门标签

Java编程训练

Linux环境

彩色进度条

容量治理

Java工具类的使用

pymsyql

C学习记录

市场浅析

代码安全

Android面试

Java开发技巧

PSOGRU

项目错误总结

网站模版

vextqf32

vfmaqlane

金融量化分析

C20新特性

C20

jthread

python日常

post传参

Powered by Hwhale