将 parquet 转换为 json 以进行 dynamodb 导入

2023-12-28

我正在使用 AWS Glue 作业以 parquet 格式备份 s3 中的 dynamodb 表,以便能够在 Athena 中使用它。

如果我想使用这些 parquet 格式的 s3 文件能够在 dynamodb 中恢复表,这就是我的想法 - 读取每个 parquet 文件并将其转换为 json,然后将 json 格式的数据插入 dynamodb (使用 pyspark在下面几行)

# set sql context
parquetFile = sqlContext.read.parquet(input_file)
parquetFile.write.json(output_path)

使用 - 将普通 json 转换为 dynamo 预期 jsonhttps://github.com/Alonreznik/dynamodb-json https://github.com/Alonreznik/dynamodb-json

这种方法听起来正确吗?这种方法还有其他替代方法吗?


您可以使用 AWS Glue 将 Parquet 格式直接转换为 JSON,然后创建一个在 S3 put 上触发的 lambda 函数并将其加载到 DyanmoDB

https://medium.com/searce/convert-csv-json-files-to-apache-parquet-using-aws-glue-a760d177b45f https://medium.com/searce/convert-csv-json-files-to-apache-parquet-using-aws-glue-a760d177b45f

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 parquet 转换为 json 以进行 dynamodb 导入 的相关文章

随机推荐