通过Spark SQL进行批量数据迁移

2024-01-01

我目前正在尝试通过 Spark SQL 将非常大的 MySQL 表的内容批量迁移到 parquet 文件中。但这样做时，即使将驱动程序的内存限制设置得更高（我在本地模式下使用 Spark），我也会很快耗尽内存。示例代码：

Dataset<Row> ds = spark.read()
    .format("jdbc")
    .option("url", url)
    .option("driver", "com.mysql.jdbc.Driver")
    .option("dbtable", "bigdatatable")
    .option("user", "root")
    .option("password", "foobar")
    .load();

ds.write().mode(SaveMode.Append).parquet("data/bigdatatable");

Spark 似乎试图将整个表内容读入内存，但效果不太好。那么，通过 Spark SQL 进行批量数据迁移的最佳方法是什么？

在您的解决方案中，Spark 会在开始写入之前将整个表内容读入一个分区。可以避免这种情况的一种方法是对读取部分进行分区，但它需要源数据中的数字连续列：

Dataset<Row> ds = spark.read()
  .format("jdbc")
  .option("url", url)
  .option("driver", "com.mysql.jdbc.Driver")
  .option("dbtable", "bigdatatable")
  .option("user", "root")
  .option("password", "foobar")
  .option("partitionColumn", "NUMERIC_COL")
  .option("lowerBound", "1")
  .option("upperBound", "10000")
  .option("numPartitions", "64")
  .load();

在上面的示例中，数据中必须存在“NUMERIC_COL”列，理想情况下，它应该在 1 到 10000 之间均匀变化。当然，这是很多要求，并且类似的列可能不存在，因此您应该可能会在数据库中创建一个具有类似列的视图，或者将其添加到查询中（请注意，我使用了通用 SQL 语法，您必须适应您的 DBMS）：

String query = "(select mod(row_number(), 64) as NUMERIC_COL, * from bigdatatable) as foo"

Dataset<Row> ds = spark.read()
  .format("jdbc")
  .option("url", url)
  .option("driver", "com.mysql.jdbc.Driver")
  .option("dbtable", query)
  .option("user", "root")
  .option("password", "foobar")
  .option("partitionColumn", "NUMERIC_COL")
  .option("lowerBound", "0")
  .option("upperBound", "63")
  .option("numPartitions", "64")
  .load();

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

通过Spark SQL进行批量数据迁移的相关文章

pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na

随机推荐

变量神秘消失？ AWS 代码构建

接下来是我的 buildspec yml build commands IMAGE TAG cat package json grep version head 1 awk F print 2 sed s g echo IMAGE TAG
如何防止 WKWebView 对象崩溃？

Scenario 我正在用 Swift 构建一个 iOS 应用程序其中一项功能是将实时视频源作为应用程序背景视频源源自本地网络上的 Raspberry Pi 使用sudo motion Motion 已成功在默认端口上托管源8081 S
如何调整撬片颜色

Edit 褪色的灰色仅是 0 9 7 3 及之前版本的问题此后它已更改为深灰色 Pry 具有很好的着色功能但是创建或更改对象时返回的值是褪色的灰色我几乎看不到 u User new gt
在 R 中搜索列表条目的索引

给定一个 R 列表我希望找到给定列表条目的索引例如对于条目 36 我希望我的输出是 2 另外我如何使用 lapply 并行执行此类查询 gt list 1 1 7 12 26 29 2 1 11 36 3 1 20 49 4 1 3
为什么 isnan 含糊不清以及如何避免它？

Since isnan可以是宏在 C 98 中或命名空间中定义的函数std 在 C 11 中这个简单的示例说明了编写在两种情况下都有效的代码的明显可能是天真的方法 include
iOS Objective C 中的单例不会阻止多个实例

我知道有几个关于此的主题但没有一个回答我的问题我已经像这样实现了我的单例类意识到有关单例的争议 MyClass sharedInstance static MyClass sharedInstance nil static dispa
OpenIdDict 不从 .Net Core API 返回令牌

我有一个 Net Core API 项目我在其中使用 OpenIDDict 进行身份验证我在那里提到官方存储库 https github com openiddict openiddict samples blob dev sample
如何跟踪页面上的链接被点击的位置？

我正在接管一个具有三列布局的网站的开发左侧菜单内容横幅主要内容右侧内容横幅他们网站所有者使用内容横幅来宣传重要内容我试图让他们明白根据人类阅读模式的 P 形状位于右下角右栏底部的项目实际上对访问者来说是不可见
手动输入日期时 md-datepicker 显示错误

我正在使用 md datepicker 当我手动输入日期时它显示无效日期但如果我从此控件中选择日期则它会被验证为此我使用了以下代码
在 PHP Foreach 循环之外使用变量

我试图在 foreach 循环之外输出用户名和用户电子邮件我正在尝试向特定用户角色内的所有 WordPress 用户发送电子邮件这是我的代码 Get users and their roles user args array role
Windows Phone 7 通过 wifi 接收 UDP 数据包（广播或单播）

我已经看了好几天有关 Windows Phone 7 的各个论坛但没有一个给我明确的答案到目前为止我还无法接收从通过 wifi 连接到 Windows Phone 7 设备在模拟器上运行的计算机发送的 UDP 数据包既不是广播也
Uploadify：使用 scriptData 将表单的 ID 作为参数传递

我需要能够使用 Uploadify 在一页上有多个上传输入可能有数百个上传 PHP 文件将根据用于提交文件的输入按钮的 ID 重命名上传的文件因此它将需要该 ID 由于我将在一个页面上有数百个上传按钮因此我想创建一个通用实例因此我
带有主查询数据变量的 MySQL 子查询

好的这里需要一位 MySQL 专家我正在尝试编写一个查询当有人对您之前评论过的项目发表评论时该查询将充当通知系统 drinkComment 表非常简单 commentID userID drinkID datetime commen
Flex/bison，错误：未声明

你好我有一个问题下面的程序返回一个错误 error Undeclared first use in function 为什么会出现这个错误所有令牌都被声明了但是这个错误来了任何人都可以帮助我这里是 lex 和 yac 文件谢谢
TortoiseHG 和 TortoiseSVN 一起玩得好吗？

我先安装了TSVN 并使用了很长时间然后我安装 T HG 当我右键单击时我没有看到任何 TortoiseHG 有人有同样的问题吗所有 T SVN 覆盖仍然存在从版本 0 8 2009 07 01 发布开始 TortoiseHg 支
在.NET 中连接来自不同源数据库的两个数据表？

如何在 NET 中连接来自不同源数据库的两个数据表理想情况下我可以手动创建两个查询并简单地连接到单个字段在这种情况下链接服务器和计划导入不是一个选项我已经研究了数据关系对象但是如果我错了请纠正我这只适用于父子关系我也遇到
WinDbg 在 MS 符号服务器上找不到 ntdll 的符号

我正在尝试调试可执行文件 notepad exe 来自 Windows 10 发行版并且需要来自 Microsoft 符号服务器的符号 ntdll pdb 但调试器返回错误指出找不到指定的文件 0 000 gt reload Reloa
我可以在 Schema.org 的一个项目范围中使用多个项目类型吗？ [复制]

这个问题在这里已经有答案了我想知道是否可以在一个项目范围内使用多个项目类型例如我现在有这个 div class wrapper p p p p div 当我在 Google 的 Web 开发人员工具中进行结构化数据测试时它仅选取
Trirand jqGrid 未显示；类型错误：$(...).jqGrid 不是函数

网格不显示 Firefox 控制台显示类型错误 jqGrid 不是函数 ASP NET MVC 5 2 2 剃刀 jQuery 2 1 1 特兰德 jqGrid 4 6 0 我检查过其他类似的问题每次问题看起来都不一样要么是语法问题
通过Spark SQL进行批量数据迁移

我目前正在尝试通过 Spark SQL 将非常大的 MySQL 表的内容批量迁移到 parquet 文件中但这样做时即使将驱动程序的内存限制设置得更高我在本地模式下使用 Spark 我也会很快耗尽内存示例代码 Dataset

通过Spark SQL进行批量数据迁移

通过Spark SQL进行批量数据迁移 的相关文章

随机推荐

热门标签

通过Spark SQL进行批量数据迁移的相关文章