如何将行合并到spark数据帧的列中作为有效的json以将其写入mysql

2024-02-09

我正在尝试将多行合并为一列，作为 Spark 数据帧（spark 1.6.1）中的有效 json 格式。然后我希望它存储在mysql表中。

我的原始 Spark 数据框如下所示：

|user_id   |product_id|price       | 
|A         |p1        |3000        |
|A         |p2        |1500        |
|B         |P1        |3000        |
|B         |P3        |2000        |

我想像这样转换上面的表：

|user_id   |contents_json 
|A         |{(product_id:p1, price:3000), (product_id:p2, price:1500)} 
|B         |{{product_id:p1, price:3000), (product_id:p3, price:2000)}

然后将上面的表放入mysql表中。

这与爆炸的方式完全相反，但我找不到正确的方法。

我假设您正在寻找下面显示的 JSON 输出。

from pyspark.sql.functions import col, collect_list, struct

df = sc.parallelize([('A','P1',3000), ('A','P2',1500),
                     ('B','P1',3000), ('B','P3',2000)]).toDF(["user_id", "product_id","price"])

> Spark2.0

df1 = df.\
    groupBy("user_id").agg(collect_list(struct(col("product_id"),col("price"))).alias("contents_json"))
df1.show()

Spark1.6

zipCols = psf.udf(
  lambda x, y: list(zip(x, y)),
  ArrayType(StructType([
      # Adjust types to reflect data types
      StructField("product_id", StringType()),
      StructField("price", IntegerType())
  ]))
)

df1 = df.\
    groupBy("user_id").agg(
        zipCols(
            collect_list(col("product_id")), 
            collect_list(col("price"))
        ).alias("contents_json")
    )

for row in df1.toJSON().collect():
    print row

输出是：

{"user_id":"B","contents_json":[{"product_id":"P1","price":3000},{"product_id":"P3","price":2000}]}
{"user_id":"A","contents_json":[{"product_id":"P1","price":3000},{"product_id":"P2","price":1500}]}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

python27

apachespark

PySpark

apachesparksql

如何将行合并到spark数据帧的列中作为有效的json以将其写入mysql 的相关文章

如何在 IntelliJ IDEA 中按 JSON 中的路径搜索？

我有很长的 JSON 文件例如 a b c keyC 和路径 a b c 如何使用路径在 JSON 中搜索转到行问题类似于如何在 IntelliJ IDEA 中复制 JSON 中的路径 https stackoverflow com
有序 JSON 对象

我有一个 servlet 它与数据库通信然后返回有序按时间排序对象的列表在servlet部分我有 access DB returns a list of User objects ordered ArrayList users M
使用 lift-json 反序列化具有 Map[String,Any] 属性的案例类

几天来我一直在努力解决一些通过 lift json 应该很简单的事情将映射序列化为 JSON 我知道我知道根对象还不能是 List 或 Map 但我愿意暂时包装在一个案例类中但我仍然无法让它工作感谢一些堆栈溢出帮助我已经可以进行
如何使用多个 { 'not find' } 来干燥方法？

我正在尝试优雅地处理以下错误的 JSON 其中Hash fetch似乎不是一个选择使用 Hash fetch 优雅地处理错误的 JSON https stackoverflow com questions 25193627 handle
如何使用 Jackson 将对象附加到现有 JSON 文件

如何使用 Jackson 将对象附加到现有 JSON 文件 File file new File test json if file exists file createNewFile ObjectMapper mapper new Obj
插入 Mysql 表时防止 Json 排序

在发送 AJAX 请求时 Json Content 的重新排序已经是一个已知问题但我不知道在将 Json content 插入 JSON 类型的 Mysql 表时也会发生同样的情况在这种情况下 mysql 服务器在保存之前也会对其内容进
sed 替换 json 对象中键的值

我想做什么给定一个 json 事件文件我想通过关键字定位特定事件然后将该事件中的键值替换为这必须使用 sed 来完成 Splunk 转发问题我不会用细节来烦你事件示例 message we have a response fro
检查给定字符串中是否存在回车符

我正在从文件中读取一些行并检查每行是否具有 Windows 类型的 CRLF 如果任何行中缺少 n 或 r 则必须报告错误我尝试使用下面的代码即使该行没有 r 它也不会报告任何错误 Open file open File Name r
Rails 可以自动解析从表单 text_field 收到的日期时间吗

Rails 可以自动解析从表单的文本字段接收到的日期时间吗 in view div class field br div in controller params product updated at yesterday 目前我收到以下错误
Pandas HD5-查询，其中表达式失败

我想查询 HDF5 文件我愿意 df to hdf pfad df format table 将数据帧写入光盘为了阅读我使用 hdf pandas HDFStore pfad 我有一个列表其中包含numpy datetime64值称为
Ajax 调用后使用 Django 模板呈现 JSON 对象

我一直在尝试了解什么是最佳方法Ajax http en wikipedia org wiki Ajax 28programming 29 in Django http en wikipedia org wiki Django 28web f
toJSON() 和 JSON.Stringify() 之间的区别

如果您需要读取或克隆模型的所有数据属性请使用其 toJSON 方法此方法返回属性的副本作为对象尽管有其名称但不是 JSON 字符串当 JSON stringify 为使用 toJSON 方法传递一个对象它将返回的字符串化 t
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
为什么我无法解开根节点并反序列化对象数组？

为什么我无法通过展开根节点来反序列化对象数组 import java io IOException import java util Arrays import java util List import org codehaus jack
如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
如何对 JSON 对象进行加密哈希？

下面的问题比乍看起来更复杂假设我有一个任意 JSON 对象该对象可能包含任意数量的数据包括其他嵌套的 JSON 对象我想要的是 JSON 数据的加密哈希摘要而不考虑实际的 JSON 格式本身例如忽略换行符和 JSON 令牌之
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
WCF 自定义序列化器

我正在 WCF 中创建一个返回 JSON 的 Web 服务但 DataContractJsonSerializer 对某些循环引用犹豫不决在这种特殊情况下我无法删除这些引用相反我想使用 Newtonsoft json 库在 WCF
Web API 复杂参数属性均为 null

我有一个 Web API 服务调用可以更新用户的首选项不幸的是当我从 jQuery ajax 调用中调用此 POST 方法时请求参数对象的属性始终为 null 或默认值而不是传入的值如果我使用 REST 客户端调用相同的方法我使
将Json字符串映射到java中的map或hashmap字段

假设我从服务器返回了以下 JSON 字符串 response imageInstances one id 1 url ONE two id 2 url TWO 杰克逊代码大厦 JsonProperty 我怎样才能得到HashMap对象出来了

随机推荐

如何在java中将html放入JLabel中？

如何在 java 中的 JLabel 中使用 html 标签将 html 放入JLabel 你会让它看起来像这样 JLabel label new JLabel
`conda install` 报告找不到 `conda search` 找到的包？

我在尝试安装软件包时收到此错误 pybert tst dbanas Davids MacBook Pro Documents Projects PyBERT conda install c dbanas pybert WARNING The
Heroku gem 无法与 RVM 一起使用

我正在关注 Ruby on Rails 教程 http railstutorial org chapters beginning sec 1 4 1 http railstutorial org chapters beginning sec
将 Web 服务请求参数设置为必填字段

Jax WS Web 服务的代码优先方法 WebService serviceName MyInstallPhotoService SOAPBinding style SOAPBinding Style DOCUMENT use SOAPB
如何在 Yii2 验证规则消息中添加换行符

我需要打破 Yii2 验证规则中使用的长消息我尝试这样 public function rules return username required message gt long message first line here br P
在 WPF 中绘制像素

我将如何管理 WPF 中的逐像素渲染例如对于光线跟踪器我最初的猜测是创建一个 BitmapImage 修改缓冲区然后在 Image 控件中显示它但我不知道如何创建一个创建方法需要一块非托管内存我强烈推荐against前两个建议
如何从 BASH 中的节点脚本访问返回值？

假设我有一个调用节点脚本的 bash 脚本我尝试这样做 b sh文件 bin bash v node app js echo v 应用程序 js 文件 usr bin env node function f return test ret
Google Charts：如何更改百分比标签颜色？

我正在使用 Google Charts 来显示饼图在我的选项变量中我将图例设置为 legend position labeled textStyle color white fontSize 24 现在如果您查看下图字体颜色仅适用于
mysql date 显示今天/昨天/本周的结果

我正在从表中检索数据并显示条目的总和我想要做的是显示今天昨天和本月的条目总数该表使用 unix 时间戳格式例如 1351771856 目前我正在使用这条线来显示今天的结果 AND comment date gt UNIX TIMES
xpages 复选框单值选择

用户是否可以从一个值中只选择一个值
创建与模式匹配的数据帧列表

这是一个非常简单的问题但我似乎无法给出答案我想创建一个列表data frames匹配一个模式然后rm这些来自全球环境要匹配的模式是 water land by owntype 这是我尝试过的但它不起作用我认为 b c 它不知道在
编译错误报告：java.lang.NoClassDefFoundError：javax/servlet/ServletOutputStream

我在编译报告时遇到错误错误是 Exception in thread AWT EventQueue 0 java lang NoClassDefFoundError javax servlet ServletOutputStream 这是
如何在 Firefox WebExtensions 中获取 openerTabId？

我开发了一个 Chrome 扩展并尝试使用 Firefox WebExtensions 将其移植到 Firefox 这是我面临的问题在我的扩展中我需要使用chrome tabs Tab openerTabId Firefox WebE
Inno Setup 自定义页面具有多个目标文件夹，其行为类似于普通文件夹选择页面

我有以下代码取自使用文件部分中自定义页面中的两个多个选定目录 https stackoverflow com q 36317959 850848 Code var DirPage TInputDirWizardPage function
从对象中的所有键中删除字符 (Lodash OK)

在这个对象的所有键之前我有一个令人烦恼的字符长度由于它们都是相同的我想做一个 map or forEach 或带有 slice 在其中删除第一个n人物如何对对象中的所有键执行此操作我应该说我们已经在项目中导入了 Lodash 所以
获取Android设备的处理器硬件名称

我执行 proc cpuinfo使用以下代码获取 Android 设备中 CPU 的详细信息 try Process proc Runtime getRuntime exec cat proc cpuinfo InputStream is
MongoDB：手动锁定和解锁集合

我想执行事务读取然后根据结果进行写入读取应该排队直到读取和写入完成并且我手动解锁集合那可能吗读取应该排队直到读取和写入完成并且我手动解锁集合手动锁定集合是not支持于MongoDB 交易 https www mongodb c
Ubuntu 18.04/Netbeans 10.0 致命错误：无法在类路径或 bootclasspath 中找到包 java.lang

首先我在 Ubuntu 18 04 上使用 netbeans 10 0 并打开 JDK 11 当我创建一个基本的新项目时直接触发警报 cannot access java lang Fatal Error Unable to find
如何将数组中的所有导航项传递到 Laravel 中的所有视图

我知道这有点傻可能已经被问过很多次了但这个问题是独一无二的我只是为了学习而问我在 home 中有这些数组 public function home menus 视频直播路亚海钓渔获 submenus1 视频直播路亚 re
如何将行合并到spark数据帧的列中作为有效的json以将其写入mysql

我正在尝试将多行合并为一列作为 Spark 数据帧 spark 1 6 1 中的有效 json 格式然后我希望它存储在mysql表中我的原始 Spark 数据框如下所示 user id product id price A p1 30

如何将行合并到spark数据帧的列中作为有效的json以将其写入mysql

如何将行合并到spark数据帧的列中作为有效的json以将其写入mysql 的相关文章

随机推荐

热门标签