如何找到两个数组列之间的共同元素？

2024-04-30

我有两个以逗号分隔的字符串列（sourceAuthors and targetAuthors).

val df = Seq(
  ("Author1,Author2,Author3","Author2,Author3,Author1")
).toDF("source","target")

我想添加另一列nCommonAuthors与共同作者的数量。

我尝试通过这种方式做到这一点：

def myUDF = udf { (s1: String, s2: String) =>
  s1.split(",")
  s2.split(",")
  s1.intersect(s2).length
}
val newDF = myDF.withColumn("nCommonAuthors", myUDF($"source", $"target"))

我收到以下错误：

线程“main”中的异常 java.lang.UnsupportedOperationException：不支持类型 Unit 的架构

知道为什么我会收到此错误吗？如何找到两列之间的共同元素？

除非我误解了你的问题，否则有一些标准函数可以帮助你（这样你就不必编写 UDF），即split and array_intersect.

给定以下数据集：

val df = Seq(("Author1,Author2,Author3","Author2,Author3"))
  .toDF("source","target")
scala> df.show(false)
+-----------------------+---------------+
|source                 |target         |
+-----------------------+---------------+
|Author1,Author2,Author3|Author2,Author3|
+-----------------------+---------------+

您可以编写以下结构化查询：

val intersect = array_intersect(split('source, ","), split('target, ","))
val solution = df.select(intersect as "common_elements")
scala> solution.show(false)
+------------------+
|common_elements   |
+------------------+
|[Author2, Author3]|
+------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

如何找到两个数组列之间的共同元素？的相关文章

IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何将 scala 列表转换为 javascript 数组？

有更简单的方法吗 document ready function var jsArray if scalaList null for id lt scalaList jsArray push id 很简单如下所示 import play
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
Scala（或 Java）中泛型函数的特化

是否可以在 Scala 中专门化泛型函数或类例如我想编写一个将数据写入 ByteBuffer 的通用函数 def writeData T buffer ByteBuffer data T buffer put data 但由于 put
为什么 Scala 中的隐式类必须驻留在另一个特征/类/对象中？

基于scala文档 http docs scala lang org overviews core implicit classes html http docs scala lang org overviews core implicit
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
具有两个通用参数的上下文边界

在 Scala 中我可以使用上下文边界 def sort T Ordered t Seq T 与以下意思相同 def sort T t Seq T implicit def Ordered T 如果我有一个带有两个泛型参数的类怎么办 IE
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
具有上限的联合类型

我正在遵循这个问题的公认答案中提出的技术如何定义类型析取联合类型 https stackoverflow com questions 3508077 does scala have type disjunction union type
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用

随机推荐

具有 SSL 客户端证书的 iPhone 应用程序

我正在构建一个 iPhone 应用程序需要使用客户端证书通过 https 访问 Web 服务如果我将客户端证书 pkcs12 格式放入应用程序包中我就可以将其加载到应用程序中并进行 https 调用很大程度上要感谢 stackov
Security.h 中结构的 macOS 文档

我正在尝试使用Security h通过 Java 和 JNA 的 macOS 框架这意味着我需要将某些结构重建为 Java 类问题是当我查看文档中的结构时 this one https developer apple com refe
如何将温莎城堡与 ASP.Net Web 表单一起使用？

我正在尝试将 Windsor 的依赖注入连接到标准的 asp net Web 表单我想我已经使用 HttpModule 和 CustomAttribute 代码如下所示实现了这一点尽管该解决方案似乎有点笨拙并且想知道 Windsor
按广度优先顺序列出目录所有内容导致效率低下

我编写了一个 Haskell 模块来按广度优先顺序列出目录的所有内容下面是源代码 module DirElements dirElem where import System Directory getDirectoryContents
Sinon.js 结合 CalledWith 次数

我知道与sinon js https sinonjs org您可以测试间谍是否被呼叫一定次数 sinon assert calledTwice mySpy someMethod 您可以测试是否使用某些参数调用了间谍 sinon assert
像 Java 一样覆盖 Objective-C 类中的方法

我经常使用此语句来扩展类而不需要编写整个单独的文件假设 ClassFromFramework 是库中包含的框架的一部分的类 public ClassFromFramework public String myMethod operati
使用特定区域设置启动 Google Chrome（使用命令行参数）

如何使用命令行参数以特定区域设置启动 Google Chrome 根据http peter sh experiments chromium command line switches http peter sh experiments ch
MIME 类型/内容类型，用于在 IE 和 Firefox 中使用 Excel 打开 CSV 文件

我在 Excel 中识别并打开 CSV 输出时遇到问题在我的 Web 应用程序中我有一个 java servlet 它将搜索结果返回给用户搜索结果由 Apache Solr 服务器提供 GUI 前端有一个选项允许用户请求 CSV 格
生成唯一随机数的智能方法

我想生成 00000001 到 99999999 范围内的唯一随机数序列所以第一个可能是 00001010 第二个可能是 40002928 等等最简单的方法是生成一个随机数并将其存储在数据库中下次再执行一次并检查数据库中该数字是否已存
使用概率选择数组值

我还有一个作业要做那就是从黄色蓝色和红色中随机选择一种颜色概率为黄色 3 7 蓝色 1 7 红色 3 7 我知道我可以通过使用类似的方法来解决这个问题黄黄黄蓝红红红但我认为这在编程上不是很好因为当我碰巧发生这种情况时我将不
C++ 模板类问题中的类型条件

使用海湾合作委员会4 2 我有这个条件类型的元模板 template
Phong 着色问题

我正在根据以下内容编写着色器冯模型 http en wikipedia org wiki Phong reflection model 我正在尝试实现这个方程其中 n 是法线 l 是光线方向 v 是相机方向 r 是光反射维基百科文章中更
facebook 发送 API 错误代码：100 API 错误描述：无效参数错误消息：“链接”无效

我正在使用 facebook post GRAPH UI 来发布私人消息并链接到我在 facebook 中的应用程序早些时候它工作正常但从最近两天开始对话框开始抛出错误发生错误请稍后再试 API错误代码 100API错误描述无
为什么 typeof 函数在 C 中不起作用

我使用GCC编译器版本9 2 0 我想在 C 中使用 typeof 函数但它会引发错误错误 typeof 之前的预期表达式如果您需要更多信息请询问我 int a 5 double b the expected result is
Angular 2 材料垫片尺寸

我有下面的代码
如何使用 .NET 压缩目录？

我有一个包含多个文件的目录我想将此文件夹压缩为 zip 或 tar gz 文件我怎样才能用 C 完成他的工作您可以使用DotNetZip 库 http www codeplex com DotNetZip 它有相当丰富和有用的功能 E
覆盖 Chrome 扩展页面 CSS

我正在尝试使用 Chrome 扩展程序页面上的时尚扩展程序但由于某种原因它不起作用我试图用谷歌搜索这个但我只得到关于使用扩展覆盖 CSS 的答案而不是覆盖 Chrome 扩展页面有什么想法为什么它不起作用吗或者我怎样才能强迫它
如何在 Spring WS 中配置双向 SSL 连接，而不使用 Spring boot 和使用单独的 Apache tomcat 服务器？

我需要以双向 SSL 连接安全机制向服务器发送 Soap 请求消息并处理来自服务器的 Soap 响应我正在使用 Spring MVC 和 Spring ws 后者完全使用注释进行配置并且需要配置两种方式 SSL 连接以将肥皂请求发送到
如何给背景图片指定alt和标题？

如何给背景图片指定alt和标题是否可以 div div cont background FFF url images post png no repeat 您不能为 css 背景指定 alt 和标题但可以为 div 指定标题 div t
如何找到两个数组列之间的共同元素？

我有两个以逗号分隔的字符串列 sourceAuthors and targetAuthors val df Seq Author1 Author2 Author3 Author2 Author3 Author1 toDF source ta

如何找到两个数组列之间的共同元素？

如何找到两个数组列之间的共同元素？ 的相关文章

随机推荐

热门标签

如何找到两个数组列之间的共同元素？的相关文章