如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行

2024-04-20

是否有一种更优雅的方法根据字符串集中的值进行过滤？

def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = {
  val containsAction = udf((action: String) => {
    actions.contains(action)
  })

  myDF.filter(containsAction('action))
}

在 SQL 中你可以这样做

select * from myTable where action in ('action1', 'action2', 'action3')

这个怎么样：

myDF.filter("action in (1,2)")

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(1,2).map(lit(_)):_*))

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(lit(1),lit(2)):_*))

将在 1.5 中添加额外的支持以使其更清洁 https://issues.apache.org/jira/browse/SPARK-8348

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行的相关文章

为什么自类型类可以声明类

我知道 Scala 只能混合特征这对于依赖注入和蛋糕模式是有意义的我的问题是为什么我仍然可以声明一个需要另一个类但不需要特征的类 Code class C class D self C gt 这仍然编译成功我认为它应该编译失败因
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
为什么这些类型参数不符合类型细化？

为什么此 Scala 代码无法进行类型检查 trait T type A trait GenFoo A0 S lt T type A A0 trait Foo S lt T extends GenFoo S A S 我不明白为什么类型参数
IntelliJ IDEA 不会从 SBT 项目加载 Lift 库

我通过创建了一个空白项目sbt使用最基本的指南具体来说 gt cd xyz gt sbt here we create a new project w Scala 2 8 1 gt lift is org lifty lifty 1 6
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
Scala 和 Python 的通行证

我想知道是否有相当于 python 的 pass 表达式这个想法是编写没有实现的方法签名并编译它们只是为了对某些库原型的这些签名进行类型检查我能够使用以下方法模拟这种行为 def pass A A throw new Excepti
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
使用 Akka 1.3 的 actor 时，我需要注意生产者-消费者速率匹配吗？

使用 Akka 1 3 时我是否需要担心当生成消息的 Actor 生成消息的速度比使用消息的 Actor 的处理速度快时会发生什么如果没有任何机制在长时间运行的进程中队列大小将增大以消耗所有可用内存 The doc http doc
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
在 scala 宏中使用 LabelDef (2.10)

我正在尝试 scala 2 10 宏功能我使用时遇到问题LabelDef但在某些情况下在某种程度上我偷看了编译器的代码阅读了摘录米格尔加西亚的论文 http lampwww epfl ch magarcia但我还是卡住了如果我的
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
解决 sbt 中 jar 加载冲突的问题

当两个特定的 sbt 插件启动时我在 sbt 启动时收到以下错误加在一起到其构建定义中的项目这些 sbt 插件之一是规模化jdbc https github com scalikejdbc scalikejdbc另一个是my own h
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

尝试在 getline 中使用 int

cout lt lt How many questions are there going to be on this exam lt lt endl cout lt lt gt gt getline cin totalquestions
android webservice响应“解析xml到pojo异常”

我正在尝试访问 android 中的肥皂网络服务 AndroidHttpTransport httpTransport new AndroidHttpTransport URL String result String httpTransp
Linux cp 与正则表达式

我想复制目录中的一些文件重命名文件但保留扩展名这可以通过简单的cp 使用正则表达式例如 cp myfile mydir newname 1 所以我可以复制保留扩展名的文件但重命名它有没有办法获得匹配的元素cp正则表达式在命令中使用
带光谱测试的电子应用程序的简单示例

我正在尝试学习如何测试应用程序使用电子构建使用 Spectron 为此我从网上获取了一个示例应用程序其中包含简单的标题计数器标签和增量按钮我使用摩卡作为测试运行测试应启动应用程序按下按钮并检查计数器标签我什至无法达到应用程
如何在 SQL 中比较两列？

假设我有两个表每个表都有一个 SSN 变量我想显示仅在一个表中的表而不是两个表中的表这样做的正确方法是什么这是一种方法 select coalesce t1 ssn t2 ssn from t1 full outer join t
调用 SKLabelNode 时出现延迟？

我在从一个版本转换时遇到了轻微延迟滞后的问题SKScene到另一个通过注释掉各种代码我将其范围缩小到SKLabelNode 我的猜测是这就是它在调用时加载缓存字体这会导致在声明新字体时出现小的延迟口吃SKScene 有没有其
我可以将自定义注释参数传递给 Spring EL 表达式吗？

我有自定义注释例如 AllowedForUserWithID public myFunction int userID PreAuthorize CustomPermissionEvaluator isUserWithID princip
无法将 bootstrap 4（测试版）nuget 包安装到 .Net MVC（.Net 版本 4.6.2）

我无法将 bootstrap 4 测试版安装到我的 MVC 项目中准确地说 popper js nuget 依赖项无法安装请让我知道任何可能的方法 bower install 仍然是一种方法但我想使用 nuget 无法安装包 pop
iOS 颜色与图案 - 使用自定义 iPhone 5 图像

对于我的应用程序的加载屏幕和启动屏幕我使用了两种不同的方法来正确显示我的 iPhone 3 iPhone 4 和 iPhone 5 图像对于加载屏幕只需在图像中添加 568h 2x 就足以支持 iPhone5 对于闪屏我使用了一系列
运行 m 文件后，如何退出 GNU Octave，而不关闭绘图窗口？

我一直在编写一个 C 程序来解决单摆问题然后使用 GNU Octave 绘制结果它通过我的程序中的这一行绘制结果 system simppenadj sh where simppenadj sh is bin sh octave no
Helm 在 Kubernetes 集群上安装或升级版本失败：服务器找不到请求的资源或升级失败：没有部署版本

使用 helm 在我的 Kubernetes 集群上部署图表从有一天起我无法部署新的图表或升级现有的图表事实上每次我使用 helm 时我都会收到一条错误消息告诉我无法安装或升级资源如果我跑helm install name f
如何在 Three.js 中将 geoJSON 绘制为网格而不是线条，并填充颜色？

我正在使用 Three js 制作一个地球仪并将添加一些数据层所有图层都将从 geoJSON 创建我已将其设置为使地球仪第一个数据文件包含国家地区显示为线条这使用三GeoJSON https github com jdomi
Nginx 站点已启用，站点可用：无法在 Ubuntu 12.04 中的配置文件之间创建软链接

我正在尝试在 etc nginx 中的启用站点和可用站点目录中包含服务器块的配置文件之间创建软链接我正在使用的命令是 sudo ln s sites available foo conf sites enabled 当我执行时 ls l
EXTJS 中选项卡面板的单击侦听器

我在 extjs 中使用选项卡面板我想在单击选项卡时显示警报但我不知道如何这就是我现在所做的 xtype tabpanel activeTab 0 region center items xtype panel title All i
从 kubectl 输出显示失败的 pod

我想写一个包装kubectl仅显示失败的 Pod 这意味着它应该只显示 Ready 列值不相同的项目即0 1 0 2 1 2 2 3 etc kubectl get pods all namespaces NAMESPACE NAME R
无法识别的配置节 system.serviceModel

当我将网站发布到我的 Plesk 服务器时出现以下错误无法识别的配置节 system serviceModel 您的主机支持哪个版本的 NET 框架 The
使用 Visual Studio 安装项目设置 InstallPath 注册表项

我正在使用使用 Visual Studio 安装项目设计的 msi 安装程序来部署我的应用程序如何将注册表项设置为应用程序的安装路径实际上当我在寻找同样的东西时还提到了以下解决方案在注册表项中使用 TARGETDIR
如何从java类调用python脚本[重复]

这个问题在这里已经有答案了我有一个 java web 应用程序我需要使用一个简单的网络爬虫从网页中读取 html 我在java中找不到任何简单的解决方案但得到了一个非常简单的 python 脚本来解决我的问题现在如何从我的 java
在 Python 中使用 XLRD 迭代行和列

我正在使用 python xlrd 模块来解析 Excel 文件 Excel 文件如下所示 Title A B C attribute 1 1 2 3 attribute 2 4 5 6 attribute 3 7 8 9 我想要以下格式的
如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行

是否有一种更优雅的方法根据字符串集中的值进行过滤 def myFilter actions Set String myDF DataFrame DataFrame val containsAction udf action String g

如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行

如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行 的相关文章

随机推荐

热门标签

如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行的相关文章