spark使用withColumn在dataFrame中增加一列、多列，配合cache函数一起使用

2023-10-26

在开发spark应用过程中需要往hive表中造测试数据，同时造多列数据，部分列之间存在逻辑计算关系，一般使用dataframe的函数.withColumn(“col_name”,conditions)，此时conditions可以直接是类似于 col(“column_a”) * col(“column_b”) 这样的计算条件,也可以是udf函数。
例如：如果我们需要使用table_1关联table_2，得到col_a，且需要新增三列col_b，col_c和col_d，计算条件如下：

col_b = (randomDouble() * 1.5).formatted("%.2f").toDouble,
col_c = col_a * col_b,
col_d = col_c / (col_a - col_b)

从计算条件得知，先用spark连接hive库，读取table_1和table_2生成对应的dataframe，得到col_a；
col_b可以由自定义函数实现，且不依赖其他列；
而col_c和col_d均依赖其他列的数据，这里就要注意，需要在col_b计算完之后，加上cache缓存数据【cache的功能是缓存：针对频繁使用的数据/数据处理，cache将 RDD 元素从磁盘缓存到内存，便于下次读取】否则col_b的计算结果还没有被缓存到内存中，col_c也同时在计算且利用到了col_b的值，导致col_c数据混乱；
同理，新增col_d时候，也需要将col_c的结果缓存起来。

(开发环境spark+hive+scala)

//自定义udf函数不带参数
val col_udf = udf(() => {
	(randomDouble() * 1.5).formatted("%.2f").toDouble
})

//自定义udf函数带参数
val col_udf_withParams= udf((col_a:Int,col_b:Double,col_c:Double) => {
	col_c / (col_a - col_b)
})

result_df = df_table_1.
join(df_table_2("t2_col_a"),col("t1_col_a")===col("t2_col_a"),"left_outer")
.withColumnRenamed("t1_col_a","col_a") // 将t1_col_a重命名成col_a
//不用cache,因为col_b是独立计算的随机数
.withColumnRenamed("col_b",col_udf()) // col_b是随机数
//注意：在计算完col_b之后这地方必须增加缓存，否则col_c的计算结果并不等于col_a * col_b
.cache() 
.withColumn("col_c",col("col_a") * col("col_b"))
.cache() 
.withColumn("col_d",col_udf_withParams(col("col_a"),col("col_b"),col("col_c")))
.select(
 "col_a",
 "col_b",
 "col_c",
 "col_d"
).show(10)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark使用withColumn在dataFrame中增加一列、多列，配合cache函数一起使用的相关文章

如何在存储过程中使用名称求和和分组？

我想对钱列求和但我想要状态中的组名称和代码这是存储过程代码 Sql Server 2008 SELECT um upmoney as money um pId as code um FName as name up status as
SQL FORMAT 函数错误

这个SQL select FORMAT lNum from rpt myView 产生以下错误参数数据类型 varchar 对于格式的参数 1 无效功能 lNum is a varchar 10 运行 SQL Server 2012 v
MySQL 中有“connect by”替代方案吗？

如果我使用 Oracle 有connect by可用于创建分层查询的关键字目前我正在一个项目中使用MySQL 我想知道是否有替代方案connect by在 MySQL 中我尝试过谷歌但到目前为止还没有结果我想要实现的是通过一个查询从
使用sqlbulkcopy之前如何创建表

我有一个 DBF 文件我正在尝试导入该文件然后将其写入 SQL 表我遇到的问题是如果我使用 SqlBulkCopy 它需要我提前创建表但在我的场景中这是不可能的因为 dbf 文件不断变化到目前为止这是我的代码 public
SQL 中的代码重用和模块化

代码重用和模块化对于 SQL 存储过程编程来说是一个好主意吗如果是这样将这些功能添加到 SQL 存储过程代码库的最佳方法是什么我通常为常见且重复的任务创建标量值函数我发现它不仅可以简化与现有程序类似的新程序的开发而且还有助于错误跟
Scala 条件列表构造

我正在使用 Scala 2 9 2 并且想根据某些条件构建一个列表考虑以下情况其中 cond 是采用谓词 p 和类型 T 的值在本例中为 t3 的某个函数 t1 t2 cond p t3 t4 我想要的行为如下如果 p 为真则应给
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
Scala 中的 Apply 和 lambda

我有下面的代码 scala gt val builder new StringBuilder foo bar baz builder StringBuilder foo bar baz scala gt 0 until 5 foreach
日常 MySQL（部分和过滤）复制的最佳实践？

我有一个相当大的数据库有超过 40 个表我只需要复制几个表 5 并且每个表也被过滤我正在寻找一些复制这些数据的最佳实践每天就足够了我可以只选择几个表并为每个表包含一些 WHERE 子句我正在考虑为每个表启动 mysqldump
如何从连接字符串中提取数据库名称，而不考虑 RDBMS？

我正在研究一个不知道正在使用的 RDBMS 的课程当然应用程序的其余部分都清楚这一点连接字符串是此类的输入我需要数据库名称无论 RDBMS 如何如何从连接字符串中提取数据库名称我读到以下问题如何使用 SqlConnectio
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
PostgreSQL & regexp_split_to_array + 取消嵌套

我有这样的绳子测试1 纽约 X 测试 2 芝加哥 Y 测试 3 宾夕法尼亚州哈里斯堡 Z 我需要的结果是 Column1 Column 2 Column3 Test 1 new york X Test 2 chicago Y Test 3
MySQL解释更新

作为我大学复习的一部分我试图回答以下问题至少在表的一个属性上创建索引 employees 数据库您可以在其中使用 MySQL EXPLAIN 工具清楚地显示好处在条款或检索方面和负面在更新条款创建相关索引的信息对于第一部
Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
SQL Like 带有子查询

我怎样才能做到这一点 SELECT FROM item WHERE item name LIKE SELECT equipment type FROM equipment type GROUP BY equipment type 内部子查询
了解涉及 3 个或更多表时 JOIN 的工作原理。 [SQL]

我想知道是否有人可以帮助我提高对 SQL 中 JOIN 的理解如果它对问题很重要我会特别考虑 MS SQL Server 取 3 个表 A B A 通过某些 A AId 与 B 相关和 C B 通过某些 B BId 与 C 相关如果
过滤项目来源

通过此代码我设置了数据网格的 ItemsSource 不过我有更多的 wpf 控件来过滤数据网格例如从时间范围过滤数据网格我可以为此编写一个新查询但这似乎没有必要因为数据已经可用我只需要过滤它最好的方法是什么我能得到的任何
如何将此本机 SQL 查询转换为 HQL

所以我有这个很长的复杂的 Native SQLQuery string hql SELECT FROM SELECT a rownum r FROM select f2 filmid f2 realisateurid f2 titre f2
SQL Server 标识列值从 0 而不是 1 开始

我遇到了一个奇怪的情况数据库中的某些表的 ID 从 0 开始即使 TABLE CREATE 的 IDENTITY 1 1 也是如此对于某些表来说是这样但对于其他表则不然它一直有效到今天我尝试过重置身份列 DBCC CHECKID
Postgresql：SERIAL 在约束 INSERT 失败时递增

有一个像这样的简单表结构 CREATE TABLE test id INT PRIMARY KEY sid SERIAL 我注意到如果我尝试插入一行但它未通过约束测试即主键约束 SERIAL计数器无论如何都会增加所以下一次成功插入 si

随机推荐

5g信号云端服务器,5G基站已有11W 国内云游戏迎来春天

目前有报道称全国已经开通了11 3W个5G网络基站已有87万户5G签约用户这意味着在全国范围有关需要网络的IT产品和生活产品都将迎来春天其中包括网络连接使用的云游戏进入到2019年国内5G商用全面启动华为小米 OPPO等手机
QString : 类型转换，不留神就留坑？

QString作为Qt中内置的数据类型功能强大且使用方便绝对是在Qt开发过程中出场率最高的数据类型本篇我们只重点探讨下QString转换成其他数据类型的注意事项 short toShort bool ok nullptr int ba
gg修改器修改数值没有用怎么办_gg修改器修改游戏数值教程_gg修改器怎么修改数值_3DM手游...

GG修改器是很多玩家都在用的一款游戏辅助工具使用这款软件能够对多种游戏的数值进行随意的修改调整成你所需要的数值让你玩游戏玩的更爽今天3DM小编为大家带来的是GG修改器修改游戏数值的教程有需要的小伙伴们可以来一起了解下 GG修改器
Android事件分发机制及设计思路，熬了整整30天

前言想要成为一名优秀的Android开发你需要一份完备的知识体系在这里让我们一起成长为自己所想的那样此篇文章是初中高级工程师学习文章知识体系较为完整有如下特点 1 知识结构全面 2 跟随当下技术潮流实时更新 3 可用于面试学
mybatis

mybatis 起步1 之前的mybatis写法起步2 接口式编程写法 mybatis的配置 properties settings mapUnderscoreToCamelCase typeAliases mappers 这里项目结构发
（三）系统与架构级低功耗设计

前面讲解了使用EDA工具主要是power compiler 进行功耗分析的流程这里我们将介绍在数字IC中进行低功耗设计的方法同时也结合EDA工具主要是Design Compiler 如何实现我们的讲解的低功耗设计主要是自顶向下的设
笔录Flutter(十一) FloatingActionButton

Flutter练习Demo FloatingActionButton也是经常用的除了常见的悬浮在右下角的一个按钮还可以利用floatingActionButtonLocation属性控制位置的展示 floatingActionButt
Python：使用爬虫抓取网页中的视频并下载（完整源码）

Python 使用爬虫抓取网页中的视频并下载完整源码在今天的程序开发世界中网站是不可或缺的一部分人们使用网站来获取有用的信息购买商品和娱乐自己这些网站的内容通常包含了各种类型的文件其中最常见的就是视频对于有经验的程序开发者来
黑马JVM总结（八）

1 StringTable面试题 1 8 1 6时 2 StringTable的位置 jvm1 6时StringTable是常量池的一部分它随着常量池存储在永久代当中在1 7 1 8中从永久代变成了堆中为什么做这个更改呢因为永久代的
关于javascript md5 函数介绍

转自微点阅读 https www weidianyuedu com var hexcase 1 var b64pad var chrsz 8 var mode 16 模式选择 16为16位的加密 32 为32位的加密 function p
Eureka的常用配置讲解

1 关闭自我保护保护模式主要用于一组客户端和Eureka Server之间存在网络分区场景时一旦进入保护模式 Eureka Server将会尝试保护其服务的注册表中的信息不在删除服务注册表中的数据当网络故障恢复后 Eureka Se
外包四年太差劲，才幡然醒悟要跳槽

前几天有个读者过来说程序猿外包干了四年太差劲了感觉和外界差距有点大现在被动醒悟希望你能帮我制定一下学习路线如果不是女朋友和我提分手我估计现在还没醒悟大专生 18年通过校招进入湖南某软件公司干了3年多的CRUD 今年年初感
VS--屏蔽编译warning警告设置

VS 屏蔽编译warning警告设置在项目 gt 属性 gt 配置属性 gt C C gt 高级的禁用特定警告中添加相应的警告编号如4819
机器学习-前期知识储备

1 什么是机器学习机器学习利用数学模型来理解数据发现数据中的规律用作数据的分析和预测数据通常由一组向量组成这组向量中的每个向量都是一个样本我们用 x i x i xi 来表示一个样本其中 i
Spark Streaming实战对论坛网站动态行为pv，uv，注册人数，跳出率的多维度分析，实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

论坛数据运行代码自动生成该生成的数据会作为Producer的方式发送给Kafka 然后SparkStreaming程序会从Kafka中在线Pull到论坛或者网站的用户在线行为信息进而进行多维度的在线分析数据格式如下 date 日期格
判断自己的mac是macOS x64 、 macOS ARM64

在学习微信小程序时需要安装微信开发者工具那么mac用户怎么知道自己mac版本是macOS x64 还是macOS ARM64 解决方法如下在终端输入uname a 具体操作一打开访达二应用程序 gt 实用工具 gt 终端三
微信小程序蓝牙扫描搜不到信号

调试蓝牙连接的时候我的手机突然搜不到蓝牙信号了但别人手机可以看了网上的做法无非是要打开系统蓝牙权限系统定位权限小程序蓝牙权限确认都打开之后仍旧不行最后发现是一个微信应用权限被关掉了打开以后能正常搜索
【Microsoft Remote Desktop For Mac在Mac上远程Windows桌面】

Microsoft Remote Desktop For Mac在Mac上远程Windows桌面 Microsoft Remote Desktop For Mac 下载链接发牢骚版本说明所有下载均为beta版下载网站截图 Micro
python xml读写

1 xml例子
spark使用withColumn在dataFrame中增加一列、多列，配合cache函数一起使用

在开发spark应用过程中需要往hive表中造测试数据同时造多列数据部分列之间存在逻辑计算关系一般使用dataframe的函数 withColumn col name conditions 此时conditions可以直接是类似于 c

spark使用withColumn在dataFrame中增加一列、多列，配合cache函数一起使用

spark使用withColumn在dataFrame中增加一列、多列，配合cache函数一起使用 的相关文章

随机推荐

热门标签

spark使用withColumn在dataFrame中增加一列、多列，配合cache函数一起使用的相关文章