如何从 Scala 方法创建 UDF（计算 md5）？

2024-01-07

我想从两个已经工作的函数构建一个 UDF。我正在尝试计算 md5 哈希作为现有 Spark Dataframe 的新列。

def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")

结构（到目前为止我所拥有的）

val md5_hash: // UDF Implementation
val sqlfunc = udf(md5_hash)
val new_df = load_df.withColumn("New_MD5_Column", sqlfunc(col("Duration")))

不幸的是我不知道如何正确地实现该函数作为 UDF。

为什么不使用内置的md5 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24@md5(e:org.apache.spark.sql.Column):org.apache.spark.sql.Column功能？

md5(e: 列): 列计算二进制列的 MD5 摘要并以 32 个字符的十六进制字符串形式返回值。

然后您可以按如下方式使用它：

val new_df = load_df.withColumn("New_MD5_Column", md5($"Duration"))

您必须确保该列是二进制类型，因此如果它是 int，您可能会看到以下错误：

org.apache.spark.sql.AnalysisException：无法解析'md5（Duration)' 由于数据类型不匹配：参数 1 需要二进制类型，但是，'Duration' 是 int 类型。;;

然后您应该将类型更改为md5-兼容，即二进制类型，使用bin http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24@bin(e:org.apache.spark.sql.Column):org.apache.spark.sql.Column功能。

bin(e: 列): 列返回给定长列的二进制值的字符串表示形式的表达式。例如，bin("12")回报"1100".

那么解决方案可能如下：

val solution = load_df.
  withColumn("bin_duration", bin($"duration")).
  withColumn("md5", md5($"bin_duration"))
scala> solution.show(false)
+--------+------------+--------------------------------+
|Duration|bin_duration|md5                             |
+--------+------------+--------------------------------+
|1       |1           |c4ca4238a0b923820dcc509a6f75849b|
+--------+------------+--------------------------------+

您还可以将函数“链接”在一起，并在一个函数中进行转换和计算 MD5withColumn，但我更喜欢将步骤分开，以防出现需要解决的问题，并且中间步骤通常会有所帮助。

表现

您会考虑使用内置函数的原因bin and md5自定义用户定义函数 (UDF) 的优点是could由于 Spark SQL 处于完全控制状态，因此可以获得更好的性能would不添加额外的步骤来序列化和反序列化内部行表示。

这里的情况并非如此，但仍然需要较少的导入和使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 Scala 方法创建 UDF（计算 md5）？的相关文章

如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr
将多个 Future[Seq] 连接成一个 Future[Seq]

如果没有 Future 这就是我将所有较小的 Seq 组合成一个大 Seq 的方式flatmap category getCategoryUrlKey id Int Seq Meta main method val appDomains S
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
Play 框架：异步与同步性能

我有以下代码 def sync Action val t0 System nanoTime Thread sleep 100 val t1 System nanoTime Ok Elapsed time t1 t0 1000000 0 ms
如何将 csv 文件读取为键值对的映射

我的 csv 文件中有数据例如 value key A Name B Name C Name 24 Age 25 Age 20 Age M Gender F Gender 我想解析它以生成以下地图 Map Name gt List A B
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
Scala 除以零会产生不同的结果

我对 Scala 如何处理除以零感到困惑这是 REPL 代码片段 scala gt 1 0 java lang ArithmeticException by zero 33 elided scala gt 1 toDouble 0 toD
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
scala：抽象类实例化？

我怎么会实例化一个抽象类呢 abstract class A val a Int val a new A val a 3 或者是隐式创建了一些具体的类那些大括号之后是做什么用的new A mean 这样您就隐式扩展了A 你所做的是语法糖
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一

随机推荐

如何从启用了“以管理员身份运行”的基于 WiX 的安装程序安装桌面快捷方式（到批处理文件）？

我正在从基于 WiX 的安装程序安装桌面快捷方式到批处理文件如何在启用以管理员身份运行设置的情况下自动配置此快捷方式目标操作系统是Windows Server 2008 R2 并且安装程序正在以提升的权限运行 Update 感谢
Porter Stemmer 算法未返回预期输出？当修改为def时

我正在使用PorterStemmer http tartarus org martin PorterStemmer Python 端口 http tartarus org martin PorterStemmer python txt 波特
实体框架 SaveChanges() 与 SaveChangesAsync() 和 Find() 与 FindAsync()

我一直在寻找上述两对之间的差异但没有找到任何文章清楚地解释它以及何时使用其中之一那么有什么区别SaveChanges and SaveChangesAsync 而之间Find and FindAsync 在服务器端当我们使用Async
Kivy按钮文本对齐问题

我正在尝试在 Kivy 中开发一个电子邮件应用程序基本上只是作为学习框架内部和外部的练习我正在尝试创建初始窗口但遇到了一些绊脚石这个想法是它只会在收件箱中显示电子邮件列表就像移动设备上的任何基本电子邮件应用程序一样我遇到的问题
在 MySQL 中使用 UPDATE 和 JOIN 时出现语法错误“near FROM”？

UPDATE bestall SET view t1 v rawview t1 rv FROM bestall INNER JOIN beststat as t1 ON bestall bestid t1 bestid 这个查询给出了附近的
如何编写一个 zipWith 方法，该方法返回与传递给它的集合类型相同的集合？

我已经达到了这样的程度 implicit def collectionExtras A xs Iterable A new def zipWith B C That ys Iterable B f A B gt C implicit cbf
首先在 EF 代码中混合 Fluent API 和 DataAnnotations

虽然我们主要对代码优先的 POCO 使用流畅的配置但我们发现对表名 PK 等使用数据注释很有用因为它使没有引用的非 EF 组件变得更容易到 ObjectContext 来与这些实体进行交互根据我们的经验这两种配置风格似乎可以自由混合
从 Jenkins Multijob 迁移到 Pipeline 插件

目前我们正在使用 Jenkins CI 1 643 我相信以及 Multijob 插件和 Job DSL 使用 Job DSL 生成作业集合以及包含特定顺序的所有其他作业构建分析单元测试集成测试等的多作业我有兴趣升级到 Je
maven插件安装：安装文件错误

我使用 install install file 将 jar 安装到我的本地存储库我的 pom xml 编写如下
将无序列表制作为下拉菜单

如果我在 WordPress 上显示此代码将其转换为跳转菜单的最简单方法是什么 ul class toc odd level 1 li a href 1 It s finally here a li li a href 2 Improve
Python 中的线程需要更长的时间而不是使其更快？

我编写了 3 个不同的代码来比较有线程和没有线程基本上测量通过使用线程节省了多少时间结果没有任何意义这是我的代码 import time def Function global x x 0 while x lt 300000000 x
在多宿主 Windows 10 计算机上接收 UDP 多播消息

我有一个C NET侦听 UDP 多播消息的客户端我需要在单个网络接口上接收消息有时我看不到收到的消息当我禁用其他接口时它可以工作我尝试使用本网站上类似问题的代码将套接字选项设置为特定接口但是我不确定这是否只影响发送多播消息而不
在 PHP 中学习 mvc 的最佳方法是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对 mvc 完全陌生如何学习走这条路了解 MVC Google 一下参见维基百科文章选择一个框架我建议 CodeIgni
提高 Fortran 代码性能的提示和技巧 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在新的 iTunes connect 中创建应用内购买测试用户？

我在 itune connect 中创建了一个测试用户用户创建成功并且还可以登录手机苹果商店但是当我要在同一用户的应用程序购买中进行测试时我无法进行测试总是显示错误无法找到您输入的 Apple ID 或您的密码不正确请重试
适用于 Chrome，但不适用于 Firefox - jquery

carat weight right li css left function index value if value 100 this children span css margin left 58px text align righ
继续出现此编译错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案当我编译时我不断收到此错误 mario c 4 1 error expected identifier or 我尝试过改变一些东
.htaccess - 将域/lang/重定向到每种语言的子域

我已经为此苦苦挣扎了好几个星期但无法找到解决方案我必须在多语言网站的 htaccess 中进行重定向其所有页面都遵循相同的结构但每种语言都有一个子域以下方式对 http 和 https 有效 domain es es allpag
gcc -D_FORTIFY_SOURCE=1 和 -D_FORTIFY_SOURCE=2 之间的区别

有人可以指出两者之间的区别吗gcc D FORTIFY SOURCE 1 and D FORTIFY SOURCE 2 我猜 2更安全吗我无法找到逐点列出差异的列表我也读过 D FORTIFY SOURCE 2应该与使用 O2 否则并非
如何从 Scala 方法创建 UDF（计算 md5）？

我想从两个已经工作的函数构建一个 UDF 我正在尝试计算 md5 哈希作为现有 Spark Dataframe 的新列 def md5 s String String toHex MessageDigest getInstance MD5

如何从 Scala 方法创建 UDF（计算 md5）？

表现

如何从 Scala 方法创建 UDF（计算 md5）？ 的相关文章

随机推荐

热门标签

如何从 Scala 方法创建 UDF（计算 md5）？的相关文章