从 pySpark SQL 写入远程 mysql 数据库 (JDBC) 获取新行 id

2024-01-23

我正在使用 pyspark-sql 使用 JDBC 在远程 mysql 数据库中创建行。

我有两张桌子，parent_table(id, value) and child_table(id, value, parent_id)，所以每一行parent_id可能有尽可能多的行child_id根据需要与其关联。

现在我想创建一些新数据并将其插入数据库。我正在使用代码指南here https://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases为了write操作，但我希望能够执行以下操作：

parentDf = sc.parallelize([5, 6, 7]).toDF(('value',))
parentWithIdDf = parentDf.write.mode('append') \
                         .format("jdbc") \
                         .option("url", "jdbc:mysql://" + host_name + "/"
                            + db_name).option("dbtable", table_name) \
                         .option("user", user_name).option("password", password_str) \
                         .save()
# The assignment at the previous line is wrong, as pyspark.sql.DataFrameWriter#save doesn't return anything.

我想要一种方法让上面的最后一行代码返回一个 DataFrame，其中每行都有新的行 id，这样我就可以这样做

childDf = parentWithIdDf.flatMap(lambda x: [[8, x[0]], [9, x[0]]])
childDf.write.mode('append')...

这意味着最后我会在我的远程数据库中

parent_table
 ____________
| id | value |
 ____________
| 1  |   5   |
| 2  |   6   |
| 3  |   7   |
 ____________

child_table
 ________________________
| id | value | parent_id |
 ________________________
| 1  |   8   |    1      |
| 2  |   9   |    1      |
| 3  |   8   |    2      |
| 4  |   9   |    2      |
| 5  |   8   |    3      |
| 6  |   9   |    3      |
 ________________________

正如我在上面的第一个代码片段中所写的，pyspark.sql.DataFrameWriter#save不返回任何内容，正在查看它的文档 http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrameWriter，那么我怎样才能实现这一目标呢？

我做错了什么吗？看起来没有办法从 Spark 的操作中获取数据（save是），而我想用这个行动作为一种转变，这让我觉得我可能以错误的方式思考这一切。

一个简单的答案是使用时间戳+自增数来创建唯一的ID。仅当某个时间只有一台服务器正在运行时，此方法才有效。 :)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 pySpark SQL 写入远程 mysql 数据库 (JDBC) 获取新行 id 的相关文章

无法在类上找到适当的构造函数

我正在尝试将本机 SQL 结果映射到 POJO 但它返回错误这是完整的堆栈跟踪 Hibernate SELECT FROM members tb where memberName like 2019 12 19 07 40 20 688
MySQL 字符串中的第二个（或第三个）索引

查找字符串中第三个空格的索引的最简单方法是什么我的目标是得到CCC在此空格分隔的列表之外 AAAA BBBB CCCC DDDD EEE 其中A B和D是固定长度 C是可变长度 E F G是可选的在Java中我会使用indexof 起
Magento --“SQLSTATE[23000]：违反完整性约束..”客户更新

迁移服务器后每次尝试更新客户信息时都会出现错误我正在使用一个客户激活插件 http www magentocommerce com magento connect vinai extension 489 customer activat
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
在 Mysql 上使用 EntityManager JPA 运行脚本

我正在尝试运行脚本 sql 文件但由于我尝试了多种方法因此出现多个错误这是我的主要 sql 脚本 INSERT INTO Unity VALUES 11 paq 0 2013 04 15 11 41 37 Admin Paquete
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
为什么我在 MySQL 中设置更大的 INT 数据类型长度时没有收到错误消息？

我对 MySql 中的数据类型长度有点困惑我阅读了参考手册http dev mysql com doc refman 5 0 en data types html http dev mysql com doc refman 5 0 en
Hibernate + MySQL + rewriteBatchedStatements=true

我有以下 Hibernate 配置
无法连接到 Node.js 上的 MySQL 数据库

我仍然不明白为什么在尝试连接到 Node js 上的 MYSQL Server 时仍然收到此错误消息 ERROR Error ER ACCESS DENIED ERROR Access denied for user root localh
如何将行变成列？

我有一个数据库其中存储分组到项目中的关键字以及与每个关键字相关的数据然后我显示每个项目的数据网格每个关键字一行和几列全部从同一个表数据中检索我有 4 个表关键字项目 group keywords 和数据 keywords
无法在 .net core 2 中从 MySQL 构建“日期”类型列

我已经开始了一个新的 net core 2 项目我正在尝试将 MySQL 数据库导入实体框架我使用此命令来搭建数据库 Scaffold DbContext server localhost port 3306 user id user
如何导出带有数据的 MySQL 架构？

我有一个完整的架构其中有许多表其中包含 MySQL 查询浏览器中的数据现在我想将这个包含所有表数据的完整数据库发送给我的同事我怎样才能将其发送给我的同事以便他可以将这个完整的架构放入他的 MySQL 查询浏览器中 Thanks
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
从 Grib 天气模型中提取数据

我已经下载了grib1模型数据来自GFS http en wikipedia org wiki Global Forecast System 我使用的是 Mac OS X 并且能够构建wgrib2文件来自NOAA http en wikip
MySQL - 多个结果集

我正在使用 NET Connector 连接到 MySQL 在我的应用程序中很少有线程使用相同的连接因此如果 MySQLDataReader 尚未关闭并且某个线程正在尝试执行查询则会出现该错误已经有一个打开的 DataReader
AWS RDS MySql - 如何在设置“公开可用”后允许访问

刚刚使用默认设置和用户密码创建了新的 AWS RDS MySql 实例我也将其设置为publicly available并在此过程中创建新的 VPC 目前无法从我的笔记本电脑连接到此 RDS mysql h endpoint u myu
如何为我的整个 Node.js 应用程序使用相同的 MySQL 连接？

我有一个app js 我从那里运行我的整个应用程序在 app js 内部我require许多文件中都有代码对于每个文件我都这样做 var mysql require mysql var mclient mysql createCon
使用来自另一个数据库的选择查询更新 mysql 表

我有两个数据库我想用另一个数据库表中的值更新一个表我正在使用以下查询但它不起作用 UPDATE database1 table1 SET field2 database2 table1 field2 WHERE database1 t
PDO语法错误

我在一个项目中使用 PDO 但提交时出现语法错误这是我的代码
如何在查询语句之外从mysql查询中获取值？

这是下面的函数console log function quo value value connection query SELECT role from roles where id 1 function error results fi

随机推荐

如何在 PostgreSQL ORDER BY 子句中使用 ALIAS？

我有以下查询 SELECT title stock one stock two AS global stock FROM product ORDER BY global stock 0 title 在 PostgreSQL 8 1 23 中
根据字符串匹配过滤字符串向量

我有以下向量 X lt c mama log papa log mimo png mentor log 如何检索另一个仅包含以 m 开头并以 log 结尾的元素的向量您可以使用grepl用正则表达式 X grepl m log X
将 AudioBufferList 转换为 CMSampleBuffer 会产生意外结果

我正在尝试转换AudioBufferList我从音频单元得到的CMSampleBuffer我可以传递到AVAssetWriter保存麦克风中的音频这种转换有效因为我为执行转换而进行的调用不会失败但记录最终会失败并且我在日志中看到一些
为什么我的 MVC 应用程序中有两个 web.config 文件

Views 文件夹中有一个应用程序的根目录中还有另一个我想注册一个自定义处理程序但我不明白代码应该放在哪里我在集成模式下运行 IIS7 所以我必须添加
C++11 中的线程池

相关问题关于 C 11 C 11 std 线程池 https stackoverflow com questions 12993451 c11 stdthread pooled C 11 中的 async launch async 是否会
NSScrollView 具有未剪辑的内容视图？

有没有办法设置我的滚动视图不剪辑其内容这是一个NSTextView 我有 NSScrollView 的子类并想要它的内容not被剪裁到其边界我尝试过重写 BOOL wantsDefaultClipping return NO in My
如何让 Flask-SQLAlchemy 在出现异常时自动回滚会话？

我想设置一个使用以下构建的应用程序Flask SQLAlchemy如果视图引发在视图代码外部冒泡的异常即未在内部捕获则回滚对数据库所做的所有更改我希望它能够工作即使某些对象在子事务中自动或直接通过session commit 类似的
在keras中构建多输出模型时出错

我正在尝试在 Keras 中创建一个多输出模型该模型从卷积开始旨在叠加两个独立密集层的结果我为回归任务创建了一些随机数据其中x1是输入和df是标签这df包含三列定义训练和测试拆分并形成模型后我在拟合模型时收到错误谁能帮我纠正
如何在 Android 中的搜索输入字段旁边添加下拉菜单？

在我的 HTC Desire Froyo 上的系统范围搜索中我看到搜索输入字段左侧有一个小下拉菜单允许选择我要搜索的位置全部网络应用程序我怎样才能实现这个在我的一个应用程序中 Google 开发者网站上的搜索教程没有解决这个问题
配置 MapReduce 作业时使用多个 InputFormat 类

我想编写一个可以处理文本和 zip 文件的 MapReduce 应用程序为此我想使用不同的输入格式一种用于文本另一种用于 zip 可以这样做吗从 ChrisWhite的答案延伸一点你需要的是使用自定义InputFormat an
如何修复 Xcode“DTAssetProviderService 无法启动..”错误？

我已经升级了 macOS Sierra Developer Preview 但是我的Xcode 7 3 1尝试在模拟器上运行我的项目时出现以下错误此外 Generic to archieve 还给出了另一个错误例如此外对于存档发生
如何将此 SQL 查询转换为 LINQ 或 Lambda 表达式？

我有以下 SQL 查询 SELECT C ID C Name FROM Category C JOIN Layout L ON C ID L CategoryID JOIN Position P ON L PositionID LIKE C
无法使用 Desktop Docker 设置通过节点端口访问 Kubernetes 服务

我在 Windows 10 上使用 Docker Desktop 我生成 kubernetes NodePort 服务以从客户端 Web 浏览器访问 http 10 110 201 24 30008 hello praveen http 1
停留在基本的 Linq to XML 查询上

我正在尝试从 namecheap 沙箱 api 中提取信息但无法弄清楚为什么我的 linq 查询不起作用这是一个示例响应 XML
php 中的文件锁定

我有一个新人隔壁的少年编写了一些 php 代码来跟踪我网站上的一些使用情况我不熟悉 php 所以我想问一些关于并发文件访问的问题我的本机应用程序在 Windows 上偶尔会通过点击包含我的 php 脚本的 URL 来将一些数据记
从地图外部将对象拖放到 Google 地图中：标记未放置在正确的纬度/经度处

我想从地图外部将一个对象拖到我的 Google 地图 API V3 中经过一番研究我发现这个非常有帮助的帖子 https stackoverflow com a 5921814 1866810我尝试将其适应我的项目主要思想是在地图上拖
MVC路由问题

我想按如下方式设置路由 Profile Edit gt 编辑操作的路由 Profile Add gt 添加操作的路由 Profile username gt 使用参数 username 路由到 Index 操作因为操作用户名不存在所以我
EventBus 和 RxJava 有什么区别？ [复制]

这个问题在这里已经有答案了我对 android 中的 EventBus 和 RxJava 之间的区别感到困惑我需要实现其中之一来解决我的问题即在完成某些更改后通知某些组件以便它们可以更新其状态另外我读到 EventsBus 已因
Java 禁用 dpi 感知不起作用

我正在尝试运行 Java 应用程序 Dsun java2d dpiaware false争论但什么也没发生我希望有一个模糊的用户界面但对于正常大小的图标和字体这个标志似乎不起作用我在 Windows 8 1 上使用 JDK 1 8
从 pySpark SQL 写入远程 mysql 数据库 (JDBC) 获取新行 id

我正在使用 pyspark sql 使用 JDBC 在远程 mysql 数据库中创建行我有两张桌子 parent table id value and child table id value parent id 所以每一行parent

从 pySpark SQL 写入远程 mysql 数据库 (JDBC) 获取新行 id

从 pySpark SQL 写入远程 mysql 数据库 (JDBC) 获取新行 id 的相关文章

随机推荐

热门标签