如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

2024-03-03

我正在尝试展平 JSON 文件，以便能够将其全部加载到 AWS Glue 中的 PostgreSQL 中。我正在使用 PySpark。我使用爬虫抓取 S3 JSON 并生成一个表。然后我使用 ETL Glue 脚本来：

读取爬取的表
使用“Relationalize”功能压平文件
将动态帧转换为数据帧
尝试“分解” request.data 字段

到目前为止的脚本：

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = glue_source_database, table_name = glue_source_table, transformation_ctx = "datasource0")

df0 = Relationalize.apply(frame = datasource0, staging_path = glue_temp_storage, name = dfc_root_table_name, transformation_ctx = "dfc")

df1 = df0.select(dfc_root_table_name)

df2 = df1.toDF()

df2 = df1.select(explode(col('`request.data`')).alias("request_data"))

<then i write df1 to a PostgreSQL database which works fine>

我面临的问题：

“Relationalize”函数运行良好，但 request.data 字段变为 bigint，因此“explode”不起作用。

由于数据的结构，如果不首先在 JSON 上使用“Relationalize”，就无法完成爆炸。具体错误是：“org.apache.spark.sql.AnalysisException：无法解析'explode（request.data)' 由于数据类型不匹配：函数explode的输入应该是数组或映射类型，而不是bigint”

如果我尝试首先将动态帧设为数据帧，则会出现以下问题：“py4j.protocol.Py4JJavaError：调用 o72.jdbc 时发生错误。：java.lang.IllegalArgumentException：无法获取结构的 JDBC 类型...”

我还尝试上传一个分类器，以便数据在爬行本身中变平，但 AWS 确认这行不通。

原始文件的 JSON 格式如下，我试图对其进行标准化：

- field1
- field2
- {}
  - field3
  - {}
    - field4
    - field5
  - []
    - {}
      - field6
      - {}
        - field7
        - field8
        - {}
          - field9
          - {}
            - field10

# Flatten nested df  
def flatten_df(nested_df): 
    for col in nested_df.columns:


    array_cols = [c[0] for c in nested_df.dtypes if c[1][:5] == 'array']
    for col in array_cols:
        nested_df =nested_df.withColumn(col, F.explode_outer(nested_df[col]))

    nested_cols = [c[0] for c in nested_df.dtypes if c[1][:6] == 'struct']
    if len(nested_cols) == 0:
        return nested_df

    flat_cols = [c[0] for c in nested_df.dtypes if c[1][:6] != 'struct']

    flat_df = nested_df.select(flat_cols +
                            [F.col(nc+'.'+c).alias(nc+'_'+c)
                                for nc in nested_cols
                                for c in nested_df.select(nc+'.*').columns])

    return flatten_df(flat_df)

df=flatten_df(df)

它将用下划线替换所有点。请注意，它使用explode_outer并不是explode在数组本身为空的情况下包含空值。此功能可用于spark v2.4+ only.

另请记住，爆炸数组将添加更多重复项，并且总体行大小将增加。扁平化结构会增加列的大小。简而言之，你原来的df会水平和垂直爆炸。它可能会减慢稍后处理数据的速度。

因此，我的建议是识别与功能相关的数据，并仅将这些数据存储在 postgresql 中，并将原始 json 文件存储在 s3 中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？的相关文章

使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas
使用 Java 进行 MongoDB 查询。计算数组中的匹配项

我在 Mongo 中存储了类似于以下内容的数据 LIST NAME a VALUE z NAME b VALUE y NAME c VALUE x NAME d VALUE w NAME e VALUE v NAME f VALUE u N
读取文本文件并将列存储在数组中

我的文件看起来像这样 01 01 5 00 1 50 7 50 02 01 4 00 3 00 12 00 02 02 3 00 4 00 12 00 03 01 4 50 3 00 13 50 03 01 7 50 2 50 18 75
如何舍入、取整、取整、截断

如何对 jq jq 1 5 1 a5b5cbe 中的数字进行舍入取整取整和截断例如与 mass 188 72 我想 mass 188 有地板 mass 189 与天花板和圆形舍入示例 5 52 gt 6 5 50 gt 5 or
如何使用 jq 从多个嵌套数组中提取键

SETUP 我试图弄清楚 jq 过滤器是如何工作的但在找出嵌套数组时遇到了困难使用下面的数据我无法做出平的 5 键输出我可以得到 1 个键和 4 个空值或者 4 个键和 1 个空值但不能得到所有 5 个键 1 个键 4 个空值 R
调整ArrayBuffer的大小

如果我想创建一个数组缓冲区我会写 var buff new ArrayBuffer size 但是如何调整现有缓冲区的大小呢我的意思是在缓冲区末尾添加更多字节 ArrayBuffer 本身没有设置有set https develop
json_encode 返回 NULL？

由于某种原因项目描述返回NULL使用以下代码这是我的数据库的架构 CREATE TABLE staff id int 11 NOT NULL AUTO INCREMENT name longtext COLL
如何为 Gson 编写自定义 JSON 反序列化器？

我有一个 Java 类用户 public class User int id String name Timestamp updateDate 我收到一个包含来自 Web 服务的用户对象的 JSON 列表 id 1 name Jonas
Swift 使用哪种通用排序算法？它在排序数据上表现不佳

我一直在挑选和探索 Swift 标准库sort 其函数为Array类型令我惊讶的是我注意到它在已经排序的数据上表现不佳对数组进行排序Int打乱顺序似乎比对已经排序的同一个数组进行排序快 5 倍对已打乱顺序的对象数组进行排序比对已按排
jQuery / Ajax：如何循环遍历数组作为 Ajax 成功函数的一部分

我有一个阿贾克斯调用返回一个数组并需要对该数组中的每个值执行某些操作到目前为止我有以下内容但这会返回以下错误 Uncaught TypeError Cannot use in operator to search for length
将 JSON 参数从 java 发布到 sinatra 服务

我有一个 Android 应用程序发布到我的 sinatra 服务早些时候我无法读取 sinatra 服务上的参数但是在我将内容类型设置为 x www form urlencoded 之后我能够看到参数但不完全是我想要的我在
使用 Newtonsoft.Json.NET 搜索 JSON 根对象的正确 JsonPath 表达式是什么？

大多数例子涉及Stefan G ssner 的书店示例 http goessner net articles JsonPath index html e3 但是我正在努力为简单对象无数组定义正确的 JsonPath 表达式 Id 1 N
Jackson 将单个项目反序列化到列表中

我正在尝试使用一项服务该服务为我提供了一个带有数组字段的实体 id 23233 items name item 1 name item 2 但是当数组包含单个项目时将返回该项目本身而不是包含一个元素的数组 id 43567 item
合并 JavaScript 数组中的重复项

我有一个愚蠢的问题乍一看似乎很容易解决但结果却很棘手我有一个对象数组每个对象都有两个属性 id 和 value id 2 value 10 id 4 value 3 id 2 value 2 id 1 value 15 我想编写一个
通过标识引用对象的标准方法（例如循环引用）？

JSON 中是否有通过身份引用对象的标准方法例如具有大量可能是循环引用的图形和其他数据结构可以被合理地序列化加载吗 Edit 我知道做一次性解决方案很容易列出图中所有节点的列表然后我想知道是否有一个标准的通用的解决方案来解
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
将数组排序为第一个最小值、第一个最大值、第二个最小值、第二个最大值等

编写一个JS程序返回一个数组其中第一个元素是第一个最小值第二个元素是第一个最大值依此类推该程序包含一个函数该函数接受一个参数一个数组该函数根据要求返回数组输入示例 array 2 4 7 1 3 8 9 预期输出 1 9
JSON 到 hashmap (杰克逊)

我想将 JSON 转换为 HashMapJackson http jackson codehaus org 这是我的 JSON String json Opleidingen name Bijz trajecten zorg en welz
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
在 Javascript 中减少/分组数组

基于this https stackoverflow com a 40774906 3254598例如我想以稍微不同的方式按对象进行分组结果应该如下 key audi items make audi model r8 year 2012

随机推荐

让 JTextPane 根据内容调整高度

我想得到一个JTextPane根据我喂它的内容来调整它的高度我所能做的就是使用 Dimension 设置固定的像素高度我该如何制作JTextPane折叠展开以便它适合内容我可能会补充一点我在一个GridBagLayout ed J
张量流中 LSTM 的正则化

Tensorflow 提供了一个很好的 LSTM 包装器 rnn cell BasicLSTM num units forget bias 1 0 input size None state is tuple False activatio
使用 Swashbuckle Aspnetcore 将 `host`、`basePath` 和 `schemes` 添加到 swagger.json

我正在使用官方文档分步方法来配置 Swagger UI 并在我的 ASP NET core API 应用程序中生成 Swagger JSON 文件如果我查看生成的 swagger json 文件它缺少三个重要属性host basePat
jQuery attr() 更改 img src

我正在用 jQuery 制作一些火箭发射效果当我点击火箭时它会与另一个火箭图像交换然后发射当我单击重置链接时 Rocket 必须重置起始位置并且图像必须恢复原状但有两个问题首先我的火箭图像不会恢复其次在它恢复到初始位
升级默认的 python 版本或在 Linux 中安装另一个 python 版本

我想升级 python 的默认版本即 usr bin python在Linux中我安装了多个 python 版本 usr bin python2 7 usr bin python3 3 然而 python命令仍然返回python2 7
在 WindowsFormsHost 之上呈现 WPF 控件

我知道默认的 WPF 行为是渲染 WPF 控件然后在顶部渲染 WinForms 但是有什么方法可以在顶部渲染 WPFWindowsFormsHost Edit 我也找到了一个临时黑客当wpf控件重叠时WindowsFormsHost 我
如何制作一个定时器？

我想做一个Timer等待 400 MSc 然后打印 hi 例如我知道如何通过javax swing Timer ActionListener action new ActionListener Override public void a
如何在 Scala 中调用 Function1[_, String]？

我回答了一个关于函数映射的问题在 Scala 中定义从字符串到函数的映射 https stackoverflow com questions 4617660 defining a map from string to function in
使用 XSLT 删除重复元素

我需要使用特定节点 ItemID 消除 XML 中的重复元素我的 XML 如下所示
升级到 gradle 2.1.0 导致 – Could not Expand ZIP 错误

我最近将 Android 项目的 gradle 插件更新为2 1 0 from 2 1 0 alpha4 但现在我看到我的所有构建都失败了并显示如下消息 Error Execution failed for task App compil
使用 CSVHelper 将流输出到浏览器

我正在尝试使用 CSVHelper 生成 CSV 文件并将其发送回浏览器以便用户可以选择保存位置和文件名并保存数据该网站是基于 MVC 的这是我用来进行调用的 jQuery 按钮代码数据是 DTO 列表的某种序列化 Json 表示形
如何在

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

Arrays

json

PySpark

apachesparksql

awsglue

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？的相关文章

使用随机放置的 NaN 创建示例 numpy 数组

使用 Java 进行 MongoDB 查询。计算数组中的匹配项

读取文本文件并将列存储在数组中

如何舍入、取整、取整、截断

如何使用 jq 从多个嵌套数组中提取键

调整ArrayBuffer的大小

json_encode 返回 NULL？

如何为 Gson 编写自定义 JSON 反序列化器？

Swift 使用哪种通用排序算法？它在排序数据上表现不佳

jQuery / Ajax：如何循环遍历数组作为 Ajax 成功函数的一部分

将 JSON 参数从 java 发布到 sinatra 服务

使用 Newtonsoft.Json.NET 搜索 JSON 根对象的正确 JsonPath 表达式是什么？

Jackson 将单个项目反序列化到列表中

合并 JavaScript 数组中的重复项

通过标识引用对象的标准方法（例如循环引用）？

Hive：如何分解嵌入 CSV 文件中的 JSON 列？

将数组排序为第一个最小值、第一个最大值、第二个最小值、第二个最大值等

JSON 到 hashmap (杰克逊)

从 Twitter API 2.0 获取 user.fields 时出现问题

在 Javascript 中减少/分组数组

随机推荐

让 JTextPane 根据内容调整高度

张量流中 LSTM 的正则化

使用 Swashbuckle Aspnetcore 将 `host`、`basePath` 和 `schemes` 添加到 swagger.json

jQuery attr() 更改 img src

升级默认的 python 版本或在 Linux 中安装另一个 python 版本

在 WindowsFormsHost 之上呈现 WPF 控件

如何制作一个定时器？

如何在 Scala 中调用 Function1[_, String]？

使用 XSLT 删除重复元素

升级到 gradle 2.1.0 导致 – Could not Expand ZIP 错误

使用 CSVHelper 将流输出到浏览器

如何在

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？ 的相关文章

随机推荐

如何使用 pyspark 在 awsglue 中展平嵌套 json 中的数组？的相关文章