Pyspark DF：如何添加文字空字典“{}”列

2024-03-30

我有 json 文件，其中每一行都是一个 json 对象，其中包含多个字符串和一个字典。{"str_a":"blah","str_b":"blah","dict_obj":{}}

字典对象通常是"dict_obj":{}，偶尔包含值，并且很少会从所有 json 行中丢失，例如：

{"str_a":"blah","str_b":"blah"}
{"str_a":"blah","str_b":"blah"}
{"str_a":"blah","str_b":"blah"}

我想确保该字段存在于 json 输出中。如果我添加一个空列，则打印输出如下所示：{"dict_object":null}但是，如果批次中的单个记录包含"dict_obj":{}字段，那么保存的json包含"dict_obj":{}.

到目前为止我尝试过的事情导致"dict_obj":null:

df.withColumn("dict_object", F.lit(None))

df.withColumn("dict_object",
    F.lit(None).cast(MapType(StringType(), StringType()))
)

df.withColumn("dict_object",
    F.lit(None).cast(StructType([StructField("", StringType(), True)]))
)

我如何复制该字段以便输出包含"dict_obj":{}?

您可以使用create_map像这样的函数：

from pyspark.functions import F
df = spark.range(1).withColumn("x", F.create_map())

>>> df.show()
+---+---+
| id|  x|
+---+---+
|  0| []|
+---+---+

>>> df.printSchema()
root
 |-- id: long (nullable = false)
 |-- x: map (nullable = false)
 |    |-- key: string
 |    |-- value: string (valueContainsNull = false)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Pyspark DF：如何添加文字空字典“{}”列的相关文章

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full

随机推荐

字符串 - 函数字典 C#，其中函数具有不同的参数

基本上我正在尝试在 c 中创建一个函数字典的字符串我已经看到它是这样完成的 Dictionary
是否可以使用单个 GET 请求搜索多个 FHIR 资源

您好我正在开发一个应用程序来使用新的 FHIR 标准它的设计目的是从电子病历中提取信息并进行组织我想知道是否可以使用单个 GET 请求搜索多个 FHIR 资源例如单个 GET 请求是否可以搜索单个患者的最新血压心率等你有没有调
使用 SAML 的 Android Cognito (O365)

我正在尝试通过 Android 应用程序将 SAML 与 Amazon Cognito 集成我关注了 101apps co za 的一系列 YouTube 视频其中我成功地通过使用他们在文档中提供的链接格式的托管 UI 以及通过我的简单
VBA：如何测试对象相等性（两个变量是否引用同一个对象）

用于测试同一自定义对象类型的两个变量是否引用同一对象的运算符或函数是什么我试过了 If myObject yourObject Then 但得到运行时错误 438 对象不支持此属性或方法我猜这告诉我重写运算符来测试两个对象的所有字段是
带有 &（与号）的 sed 行为

尝试清理一些看起来像这样的 xml 文本 Forest Paper Products Manufacturing 使用 sed 命令例如 sed s amp 但是一旦 sed 处理完文件我的输出看起来像 Forest amp Paper
Micronaut 数据本机映像：不存在 [io.micronaut.data.operations.PrimaryRepositoryOperations] 类型的 bean

我正在使用 Micronaut Micronaut Data JPA Postgres 和 GraalVM 创建一个新示例如下https github com rmondejar micronaut postgres example ht
jQuery 不会在第一次点击时触发，但在第二次点击时触发

document ready function talents li on click div function event event stopPropagation event target addClass active talent
两个程序集中具有相同名称的类（故意）

我正在迁移一个用 C 编写并具有 C 包装器的库 C 包装器 LibWrapper 有一组带有命名空间的类例如 namespace MyNamespace class MyClass class MyOtherClass 我的新图书馆 L
从 JQuery 元素获取 html DOM 元素

下面的代码给了我 JQuery 对象其中包括与之关联的 JQuery 函数 var element element 但是如何从上面的 JQuery 对象中获取 HTML DOM 元素呢从 jQuery 对象中获取第一项 var elem
如何匹配 Coq 中的特定值？

我正在尝试实现一个函数该函数可以简单地计算包中某些 nat 的出现次数只是列表的同义词这就是我想做的但它不起作用 Require Import Coq Lists List Import ListNotations Definiti
python：防止丢弃函数返回值

代码中有一个常见错误人们会这样写 if id query filter row id id 代替 if id query query filter row id id 该代码看起来有效并且很难用手识别它们在 C 中有 nodisca
CSS 上的 base64,iVBORw0K.... 是什么？ [复制]

这个问题在这里已经有答案了我是一个非常新的学习者我正在学习 php mysql 和 css 我正在阅读许多源代码来了解真正的程序员是如何工作的在一个网站上我看到一个源代码其中有人在 css 上写了以下行 background ur
使用条形码阅读器防止在 Chrome 中打开下载窗口

我的网站 MVC3 C 和条形码阅读器有这个问题在我的表格中我有这样的内容
Typescript 类型和 .bind

我开始深入研究泛型并拥有一个如下所示的通用事件类 export interface Listener lt T gt event T any export class EventTyped lt T gt Array of listener
CommonJS 规范中概述的 Define() 协议给我带来了什么？

我明白事情是怎样的正确的名称间距 https stackoverflow com questions 881515 javascript namespace declaration和模块模式 http www adequatelygood
如何在 JQuery $.each 函数中编辑全局变量？

好吧所以这个标题可能不能很好地解释我的问题希望这是有道理的这也是我第一个使用 jQuery 的应用程序所以如果我做了一些愚蠢的事情请原谅我我有以下功能 function getRandomImages limit imagesA
SQL Server 2005 中“创建用户”所需的权限？

我正在尝试从我的应用程序中创建 SQL Server 登录名和数据库用户以及自定义应用程序用户行我希望这些用户能够创建其他用户即应用程序将控制谁可以不能创建用户但我需要所有用户都具有创建 SQL Server 登录名和数据库用户的
使用 sudo:false 在 Travis-ci 上安装软件包 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何使用 travis yml 中的 sudo false 在 Travis ci 上安装软件包我有我的 travis yml sudo
使用 CoreBluetooth CBL2CAPChannel 移动数据

我已经设置了一些数据传输功能使用CoreBluetooth CBL2CAPChannel in a Swift iOS应用程序这是发送数据的函数 func sendData outStream OutputStream gt Bool
Pyspark DF：如何添加文字空字典“{}”列

我有 json 文件其中每一行都是一个 json 对象其中包含多个字符串和一个字典 str a blah str b blah dict obj 字典对象通常是 dict obj 偶尔包含值并且很少会从所有 json 行中丢失例如

Pyspark DF：如何添加文字空字典“{}”列

Pyspark DF：如何添加文字空字典“{}”列 的相关文章

随机推荐

热门标签

Pyspark DF：如何添加文字空字典“{}”列的相关文章