对从 JSON 创建的数据框应用过滤条件

2024-01-06

我正在处理由 JSON 创建的数据帧，然后我想在数据帧上应用过滤条件。

val jsonStr = """{ "metadata": [{ "key": 84896, "value": 54 },{ "key": 1234, "value": 12 }]}"""
val rdd = sc.parallelize(Seq(jsonStr))
val df = sqlContext.read.json(rdd)

df 的模式

root
 |-- metadata: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- key: long (nullable = true)
 |    |    |-- value: long (nullable = true)

现在我需要过滤我想要做的数据框

val df1=df.where("key == 84896")

这会引发错误

ERROR Executor - Exception in task 0.0 in stage 1.0 (TID 1)
org.apache.spark.sql.AnalysisException: cannot resolve '`key`' given input columns: [metadata]; line 1 pos 0;
'Filter ('key = 84896)

我想使用where子句的原因是因为我想直接使用表达式字符串例如( (key == 999, value == 55) || (key == 1234, value == 12) )

首先你应该使用explode获得易于使用的数据帧。然后您可以选择给定输入的键和值：

val explodedDF = df.withColumn("metadata", explode($"metadata"))
  .select("metadata.key", "metadata.value")

Output:

+-----+-----+
|  key|value|
+-----+-----+
|84896|   54|
| 1234|   12|
+-----+-----+

这样您就可以像往常一样执行过滤逻辑：

scala> explodedDF.where("key == 84896").show
+-----+-----+
|  key|value|
+-----+-----+
|84896|   54|
+-----+-----+

您可以串联您的过滤要求，下面是一些示例：

explodedDF.where("key == 84896 AND value == 54")
explodedDF.where("(key == 84896 AND value == 54) OR key = 1234")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

对从 JSON 创建的数据框应用过滤条件的相关文章

Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
从会话中读取数据时如何发出加特林捕获请求？

根据加特林文档 http gatling io docs 2 1 7 session session api html 我可以在执行场景时使用会话属性但是每次我在场景中使用函数文字访问会话时都会遇到以下异常 error java la
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Scala 'null' 是否算作另一种类型的实例？

我有这个代码 class MyLinkedList T h T tail MyLinkedList T def prepend v T MyLinkedList T new MyLinkedList v this 我想知道我如何可以将第二个
手动排除sbt中的一些测试类

我通常在 CI 中执行以下命令清理更新编译测试发布但是我想从 sbt 命令行中排除 1 个或几个测试类我怎样才能做到这一点我不想更改我的代码以使用忽略等两种可能的选择 test only See http www scala
如何列出所有 sbt 依赖项？

我需要列出所有 sbt 依赖项以便检查是否已存在 debian 软件包我还注意到有一个 DEB 包 http www scala sbt org 0 13 tutorial Installing sbt on Linux html但似乎
用 HashMap[Int, Vector[Int]] (Scala) 表示图（邻接列表）？

我想知道如何如果可能的话我可以通过以下方式制作可变图的邻接列表表示HashMap Int Vector Int HashMap当然是可变的目前我将其设置为HashMap Int ArrayBuffer Int 但我可以更改 Arr
使用无形类型不等式时如何自定义 Scala 模糊隐式错误

def typeSafeSum T lt Nat W lt Nat R lt Nat x T y W implicit sum Sum Aux T W R error R 7 x typeSafeSum 3 4 compilation er
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
akka-http：找不到参数解组的隐式值

我的 Spray json 支持看起来像这样 object MarshallingSupport extends SprayJsonSupport implicit def json4sFormats Formats DefaultForm
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Scalaz 拆箱标记类型不会自动拆箱

Reading http eed3si9n com learning scalaz Tagged type html http eed3si9n com learning scalaz Tagged type html并尝试示例代码 imp
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488

随机推荐

Python 导入、路径、目录和模块

首先我要说的是我在过去的一周里做了广泛的研究但还没有找到这些问题的实际答案只是一些模糊的答案并不能真正解释正在发生的事情如果这只是因为我错过了我想要的东西我很抱歉请为我指出正确的方向我的目录结构是 TestProject r
Spring Boot Web 应用程序错误：在名称为“dispatcherServlet”的 DispatcherServlet 中未找到带有 URI [/] 的 HTTP 请求的映射

我检查了有关此警告的其他问题但没有人工作 IDE Spring工具套件3 9 4 Java Oracle Java 8 当我尝试打开网页时显示错误页面尝试本地主机 8080 https i stack imgur com FkoUo j
主要 JavaScript 数据结构

我即将参加面试公司的核心技术之一是 JavaScript 有人告诉我下一次面试将重点讨论 JS 数据结构这个术语在我的任何教育中都从未出现过我在谷歌上花了一段时间试图找到更多关于它们的信息我能遇到的最好的事情是这个维基百科页面 h
PHP：open_basedir 允许的路径

我有几个电话要打给is dir在一页上他们一直工作没有问题几天前托管公司将PHP从5 2升级到5 3 从那时起我所有的电话is dir导致以下错误消息 Warning is dir open basedir restriction
OpenCV中是掩码按位与运算

我从 python 中的 opencv 开始我有一个关于如何应用 mask 的问题 bitwise and src1 src2 mask mask 以下哪一项描述了实现 A 全部按位先屏蔽 src1 与掩码进行与运算 src2 与
Spring安全为所有角色名称添加了前缀“ROLE_”？

我的网络安全配置中有以下代码 Override protected void configure HttpSecurity http throws Exception http authorizeRequests antMatchers a
FxCop 安装

我正在尝试获取最新版本的 FxCop 我使用的是 Visual Studio 2010 Professional 版本它不包含代码分析因此我尝试使用 FxCop 进行设置 At http www microsoft com en us
如何从 Python 3.10 反编译 .pyc 文件？

我确实尝试过 uncompyle6 decompyl3 等但它们都不适用于 3 10 现在是否有可能做到这一点使用pycdc GitHub https github com zrax pycdc https github com zra
在 Windows 上运行 MySQL 或 MariaDB 服务器的最少文件 - （便携式 MySQL/MariaDB）

我正在寻找 MariaDB 或 MySQL 运行所需的最少文件而无需像便携式服务器一样安装它我更喜欢 MariaDB 而不是 MySQL 我想将它嵌入到用 Delphi 编写的软件中我的软件将能够根据需要启动和停止服务器我用谷歌搜索
Nivo 滑块：第一次显示时第一张图像缩放不成比例

我在 div 中使用 Nivo Slider jQuery 插件该 div 的尺寸比我正在显示的图像小当滑块滑动到第二个图像时图像上的图像会正确缩小但是当第一次显示第一个图像时加载页面后立即它仅在宽度上缩放而在高度上不缩放
如何重新映射 python 字典键

我正在开发一个程序该程序除其他外读取 CSV 文件它以以下形式存储为字典数组 col1 data1a col2 data2a col1 data1b col2 data2b 对于每一行作为其他处理的一部分我需要将这些键重新映射到
更改 UITableView 的节页眉/页脚标题而不重新加载整个表视图

有没有办法在不调用的情况下重新加载表视图的节页眉页脚 tableView reloadData 事实上我想在表视图的部分页脚中显示表格视图部分中的单元格数量表视图是可编辑的我使用删除或插入行 insertRowsAtIndexPat
Android：将 PNG ByteArray 写入文件

我已将图像文件读入 ByteArray 但如何将其写回我的意思是将 ByteArray 保存到文件系统中的图像文件首选 PNG 格式我的代码从 PNG 文件到 ByteArray ByteArrayOutputStream strea
使用 Quartz 跨多个无状态应用程序服务器调度单个作业

我在负载均衡器后面有一层相同的应用程序服务器出于操作原因我有一个限制即两个应用程序服务器上的应用程序配置必须相同以便可以轻松添加和删除节点所有应用程序服务器共享相同的数据库应用程序服务器不会不会集群到目前为止这一切都运行良
在片段中初始化字体

我有这一行 Typeface font Typeface createFromAsset getAssets fonts Delius Regular ttf but the getAssets 参数似乎带来了一些错误它带有可怕的红线下划
为什么我们要在 YARN 中配置 mapred.job.tracker？

据我所知 YARN 被引入并取代了 JobTracker 和 TaskTracker 我看过一些Hadoop 2 6 0 2 7 0安装教程他们正在配置mapreduce framework name作为纱线和mapred job tra
在运行时调整 char[] 的大小

我需要调整大小char array size to char array new size 在运行时我怎样才能做到这一点如果您正在使用std vector
ASP.NET MVC 3：具有继承/多态性的 DefaultModelBinder

首先对这篇大文章我尝试先做一些研究以及针对同一问题的技术组合 ASP NET MVC 3 Ninject 和 MvcContrib 表示歉意我正在使用 ASP NET MVC 3 开发一个项目来处理一些客户订单简而言之我有一些继
有没有办法生成 DOCX 文件的缩略图？

我已经使用像 ASPOSE 这样的付费工具完成了这项工作但我很好奇是否有任何开源工具可以做到这一点我确信可能有工具可以做到这一点但如果您可以将文件转换为可以轻松光栅化的格式那么可能值得探索例如将工作文档转换为 pdf 然后对
对从 JSON 创建的数据框应用过滤条件

我正在处理由 JSON 创建的数据帧然后我想在数据帧上应用过滤条件 val jsonStr metadata key 84896 value 54 key 1234 value 12 val rdd sc parallelize Seq

对从 JSON 创建的数据框应用过滤条件

对从 JSON 创建的数据框应用过滤条件 的相关文章

随机推荐

热门标签

对从 JSON 创建的数据框应用过滤条件的相关文章