Spark - Java UDF 返回多列

2024-02-29

我正在使用 SparkSql 1.6.2 （Java API），我必须处理以下 DataFrame，该 DataFrame 在 2 列中具有值列表：

ID  AttributeName AttributeValue
 0  [an1,an2,an3] [av1,av2,av3]
 1  [bn1,bn2]     [bv1,bv2]

所需的表是：

ID  AttributeName AttributeValue
 0  an1           av1
 0  an2           av2
 0  an3           av3
 1  bn1           bv1
 1  bn2           bv2

我想我必须结合使用爆炸函数和自定义 UDF 函数。

我找到了以下资源：

分解（转置？）Spark SQL 表中的多列 https://stackoverflow.com/questions/33220916/explode-transpose-multiple-columns-in-spark-sql-table
如何使用 JAVA 在 Spark DataFrame 上调用 UDF？ https://stackoverflow.com/questions/35348058/how-do-i-call-a-udf-on-a-spark-dataframe-using-java

我可以成功运行一个示例，读取两列并返回列中前两个字符串的串联

 UDF2 combineUDF = new UDF2<Seq<String>, Seq<String>, String>() {
        public String call(final Seq<String> col1, final Seq<String> col2) throws Exception {
            return col1.apply(0) + col2.apply(0);
        }
    };

 context.udf().register("combineUDF", combineUDF, DataTypes.StringType);

问题是编写返回两列的 UDF 的签名（在 Java 中）。据我了解，我必须定义一个新的 StructType 如下所示，并将其设置为返回类型，但到目前为止我还没有设法使最终代码正常工作

StructType retSchema = new StructType(new StructField[]{
            new StructField("@AttName", DataTypes.StringType, true, Metadata.empty()),
            new StructField("@AttValue", DataTypes.StringType, true, Metadata.empty()),
        }
    );

context.udf().register("combineUDF",combineUDF,retSchema);

任何帮助将不胜感激。

UPDATE:我试图首先实现 zip(AttributeName,AttributeValue) 所以我只需要在 SparkSql 中应用标准爆炸函数：

ID  AttName_AttValue
 0  [[an1,av1],[an1,av2],[an3,av3]]
 1  [[bn1,bv1],[bn2,bv2]]

我构建了以下 UDF：

UDF2 combineColumns = new UDF2<Seq<String>, Seq<String>, List<List<String>>>() {
        public List<List<String>> call(final Seq<String> col1, final Seq<String> col2) throws Exception {
            List<List<String>> zipped = new LinkedList<>();

            for (int i = 0, listSize = col1.size(); i < listSize; i++) {
                List<String> subRow = Arrays.asList(col1.apply(i), col2.apply(i));
                zipped.add(subRow);
            }

            return zipped;
        }

    };

但是当我运行代码时

myDF.select(callUDF("combineColumns", col("AttributeName"), col("AttributeValue"))).show(10);

我收到以下错误消息：

scala.MatchError: [[an1,av1],[an1,av2],[an3,av3]] （属于 java.util.LinkedList 类）

看起来组合已正确执行，但返回类型不是 Scala 中预期的类型。

有帮助吗？

最后我设法得到了我正在寻找的结果，但可能不是以最有效的方式。

基本上有2步：

两个列表的 zip
按行展开列表

对于第一步，我定义了以下 UDF 函数

UDF2 concatItems = new UDF2<Seq<String>, Seq<String>, Seq<String>>() {
    public Seq<String> call(final Seq<String> col1, final Seq<String> col2) throws Exception {
        ArrayList zipped = new ArrayList();

        for (int i = 0, listSize = col1.size(); i < listSize; i++) {
            String subRow = col1.apply(i) + ";" + col2.apply(i);
            zipped.add(subRow);
        }

        return scala.collection.JavaConversions.asScalaBuffer(zipped);
    }

};

缺少 SparkSession 的函数注册：

sparkSession.udf().register("concatItems",concatItems,DataTypes.StringType);

然后我用以下代码调用它：

DataFrame df2 = df.select(col("ID"), callUDF("concatItems", col("AttributeName"), col("AttributeValue")).alias("AttName_AttValue"));

在这个阶段 df2 看起来像这样：

ID  AttName_AttValue
 0  [[an1,av1],[an1,av2],[an3,av3]]
 1  [[bn1,bv1],[bn2,bv2]]

然后我调用以下 lambda 函数将列表分解为行：

 DataFrame df3 = df2.select(col("ID"),explode(col("AttName_AttValue")).alias("AttName_AttValue_row"));

在这个阶段，df3 看起来像这样：

ID  AttName_AttValue
 0  [an1,av1]
 0  [an1,av2]
 0  [an3,av3]
 1  [bn1,bv1]
 1  [bn2,bv2]

最后，为了将属性名称和值拆分为两个不同的列，我将 DataFrame 转换为 JavaRDD 以便使用映射函数：

JavaRDD df3RDD = df3.toJavaRDD().map(
            (Function<Row, Row>) myRow -> {
                String[] info = String.valueOf(myRow.get(1)).split(",");
                return RowFactory.create(myRow.get(0), info[0], info[1]);
        }).cache();

如果有人有更好的解决方案，请随时发表评论。我希望它有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

apachesparksql

UDF

Spark - Java UDF 返回多列的相关文章

Maven：无法在 OS X 上找到 java.lang 问题

当我尝试时遇到以下问题mvn clean install显然它无法找到运行时 jar 但我需要做什么错误日志 ERROR COMPILATION ERROR INFO ERROR Failure executing javac but c
匿名类*总是*维护对其封闭实例的引用吗？

我正在处理一些代码其中一个对象 foo 正在创建另一个对象对象 bar 并将其传递给Callable 之后 foo 将返回 bar 然后我希望 foo 变得无法访问即可用于垃圾收集我最初的想法是创建Callable匿名例如 c
JCombobox 字符串项（可见）和整数键（固有）

我有一个数据库模式它将作为 JTable 列显示在 JCombobox 中以选择名称但我希望将 ID 字段插入作为外键到另一个表中通常在下拉列表中选择一个项目将所选项目带到组合框的显示区域我想要做的是当选择组合框中的任何项
使用 Bouncy Castle 重建 ED25519 按键 (Java)

Bouncy Castle 的最新测试版版本 bcprov jdk15on 161b20 jar 支持 ED25519 和 ED448 EC 加密以进行签名我设置了这个完整的工作示例它按预期工作我的问题我是否正确重建了私钥和公钥
如何在我的 HttpClient 执行器中遵循单一职责原则？

我在用RestTemplate http docs spring io spring docs current javadoc api org springframework web client RestTemplate html as
Java生成范围内不重复的随机数

我想生成 1 到 4 范围内的随机数包括 4 这是我的代码 int num r nextInt 4 1 r is instance of Random 但是我在循环中运行上述代码并且不想重复随机数现在发生的事情我经常得到 1 1 1
通过 Session.update 和 HibernateTemplate.merge 进行 Hibernate 更新的区别

我看到了更新操作的类型第一的 getHibernateTemplate execute new HibernateCallback public Object doInHibernate Session session session f
使用 Oracle Wallet 身份验证从 Spring-jdbc 连接到 Oracle DB

我将 Spring jdbc 与 org apache commons dbcp BasicDataSource 结合使用使用用户名和密码进行连接我想使用BasicDataSource 因为我只有一个连接我有这个代码
Spring Security登录返回404

我目前正在使用 Spring 框架开发我的博客我正在实现 Spring Security 用于登录目的一切都按预期进行直到我提交始终返回 404 代码的登录凭据这是我的 web xml 代码e
无法在android中使用retrofit发出@Post请求

我正在学习如何在 android 中使用改造但是每当我尝试从互联网检索数据时我的应用程序不会返回任何内容我的响应没有成功我不知道如何修复当前我正在尝试发布的错误并使用此 URL 检索数据https jsonplaceholder ty
公共领域有哪些替代方案？

我正在用 java 编写一个游戏正如问题标题建议的那样我在类中使用公共字段暂且据我所知公共领域很糟糕我有一些理解其中的原因但如果有人能澄清为什么你不应该使用它们那将不胜感激问题是从我所看到的来看这似乎是合乎逻辑的是使
字节流和字符流

请解释一下什么是字节流和字符流这些究竟意味着什么 Microsoft Word 文档是面向字节的还是面向字符的 Thanks 流是一种顺序访问文件的方式字节流逐字节访问文件字节流适用于任何类型的文件但不太适合文本文件例如如果文件
使用 java 中的准备好的语句插入自定义 SQL 类型

我有一些自定义类型它们基本上都是枚举以下是它们的外观示例 CREATE TYPE card suit AS ENUM spades clubs hearts diamonds 我在 Java 中有一些准备好的语句看起来像这样 Setu
如何告诉 Eclipse 忽略 Ant build.xml 中的错误？

我有一个使用 Maven 构建的 Eclipse 项目并且我在 Eclipse 中使用 m2eclipse 插件来获得 Maven 支持然而这个项目还包含一个build xml它并不用于实际构建项目而只是用于编写脚本功能作为项目开发
如何在 Struts 2 中访问 OGNL 跟踪评估？

有人告诉我要优化网络应用程序为此我使用JProfiler https www ej technologies com products jprofiler overview html 我注意到很大一部分响应时间都花在了表示层上特别是当
在大画布上滚动

我需要一些帮助来了解滚动绘制到 Android 画布上的项目的基础知识假设我想创建一个时间线其中 0 处的时间是可视化的顶部并且随着时间的增加时间线继续呈现在上一个点下方如果我想在 Android 上渲染它我知道我可以通过重写
Android中计算两个时间之间的差异

我有两个字符串变量例如 StartTime 和 EndTime 我需要通过用 StartTime 减去 EndTime 来计算 TotalTime StartTime和EndTime的格式如下 StartTime 08 00 AM End
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
尝试接收 UDP 多播时出现空指针异常

在尝试了几次让简单的 UDP 多播接收器工作后我感到很困惑在我自己的代码无法按预期工作后我尝试了 vertx 文档中发布的确切示例 DatagramSocket socket vertx createDatagramSocket ne

随机推荐

Excel 在代码隐藏中将数据添加到 WorksheetPart

大家好我正在使用以下代码创建一个包含 3 个工作表的 Excel 文件 using SpreadsheetDocument spreadSheet SpreadsheetDocument Create path UrlReport xls
string.unpack 在 Ruby 中如何工作？

有人可以解释为什么以下解包的结果是如何计算的吗 aaa unpack h2H2 gt 16 61 在二进制中 a 0110 0001 我不确定 h2 如何变成16 0001 0000 或 H2 如何变成61 0011 1101 不是 16
Angularjs 使用指令进行初始表单验证

我有一个名为的验证指令valid number用于使用 setValidity 设置表单的有效性这对于我在输入框中键入的任何文本值都适用该输入框中已将指令作为属性应用 HTML 是
默认日期年份设置为 1970 年

我需要解析一个最初没有设置年份的字符串例如 8 月 13 日 11 30 但是当我输出日期时它会添加年份我尝试设置年份但年份完全错误输出为 Thu Aug 13 11 30 00 GMT 3911 有没有办法在解析日期后设置年份 S
AngularJS forEach 和 splice

我有一个像这样的数组 scope emails key Work value email protected cdn cgi l email protection key value key Work value email protect
无法在 macOS Mojave 中安装 Xcode 10 网络链接调节器

我在 macOS Mojave beta 11 上使用 Xcode 10 最终版本我下载了 Xcode 10 的附加工具包来自苹果网站 https developer apple com download more for 20Xcode
当我拉取 Git 子模块存储库及其封闭存储库时，为什么我还要提交本地更改？

假设我有一个 Git 存储库 R 它有一个子目录该子目录是子模块存储库 SR 在机器 A 上我对 SR 进行了更改我承诺推动他们如果我向上移动到父目录 git status 将显示有本地更改据我所知这是因为 gitlink 已
如何在 Yii 2 中检索会话值

当我将产品添加到购物车会话并获取会话购物车值时我遇到了 Yii 2 会话的问题 session start print r SESSION exit 我得到了这条线 Array flash gt Array id gt 65 另外在尝试
RESTful 幂等性

我正在利用 ROA 面向资源的架构设计一个 RESTful Web 服务我正在尝试找出一种有效的方法来保证 PUT 请求的幂等性在服务器指定资源键的情况下创建新资源根据我的理解传统的方法是创建一种事务资源例如 CREATE PE
如何根据两个坐标计算角度？

我正在开发一个基于 3D 对象的项目并通过我的程序操作它们我目前有一个文本框允许我输入以度为单位的标题和一个按钮该按钮将计算使我的主要对象更改其标题所需的值这是该函数的代码 private void btnSetHeading C
ubuntu 14.04 上乘客安装 nginx 模块的捆绑程序错误

我正在安装乘客 nginxubuntu 14 04 ruby 2 2 4 有bundler错误与passenger install nginx module passenger install nginx module home ubunt
使用 mingw 在 eclipse 中未定义对 WinMain 错误 1 的引用

项目测试用例的配置调试构建 make all Building target testcase exe Invoking MinGW C Linker g o testcase exe atest o main o C cppunit sr
Rails 3. 如何在模型中显式地将数字四舍五入到小数点后两位？ [复制]

这个问题在这里已经有答案了可能的重复 Rails 3 如何在编辑表单中显示两位小数 https stackoverflow com questions 7772859 rails 3 how do display two decimal
如何将 propertyvaluefactory 指向地图的值？

而不是将 propertyvaluefactory 指向对象的属性如下所示 traineeCol setCellValueFactory new PropertyValueFactory sumName 我需要它指向地图内的属性而地图又
ggsave 错误“无法打开文件”

我在跑步ggsave plot pdf 并得到这个错误 Error in grDevices pdf version version cannot open file plot pdf 即使我没有打开plot pdf 我正在研究 NFS 如
如何将 uuid lib 与 mod_wsgi 一起使用？

这是回溯 mod wsgi Target WSGI script project wsgi py cannot be loaded as Python module mod wsgi Exception occurred processin
提取并添加链接到字符串中的 URL [重复]

这个问题在这里已经有答案了可能的重复如何用链接替换普通 URL https stackoverflow com questions 37684 how to replace plain urls with links 我有几个带有链接的
Orchard CMS 是否支持带有实体框架的 MVC4

我有一个使用 MVC4 Entity Framework 4 4 构建的站点有2个项目即一个是关于我们的网站的另一个是类库定义为 edmx 这次我们需要将其迁移以支持CMS 并且我们选择使用 Orchard CMS 我需要知道
同时使用 GPRS 和 GSM

我正在尝试使用 GSM GPRS 调制解调器的 GPRS 功能将数据发送到远程服务器但我无法这样做我在 Arduino 论坛上发布了一个问题但没有得到任何回复这是问题的链接 https robotics stackexchange
Spark - Java UDF 返回多列

我正在使用 SparkSql 1 6 2 Java API 我必须处理以下 DataFrame 该 DataFrame 在 2 列中具有值列表 ID AttributeName AttributeValue 0 an1 an2 an3 av

Spark - Java UDF 返回多列

Spark - Java UDF 返回多列 的相关文章

随机推荐

热门标签

Spark - Java UDF 返回多列的相关文章