JDBC 到 Spark Dataframe - 如何确保均匀分区？

2023-11-22

我是 Spark 新手，正在致力于通过 JDBC 从 Postgres 数据库表创建 DataFrame，使用spark.read.jdbc.

我对分区选项有点困惑，特别是分区列, 下界, 上限, and 分区数.

文档似乎表明这些字段是可选的。如果我不提供它们会怎样？
Spark 如何知道如何对查询进行分区？那会有多高效呢？
如果我指定这些选项，如何确保分区大小大致均匀，即使分区列分布不均匀？

假设我将有 20 个执行程序，因此我将 numPartitions 设置为 20。
我的partitionColumn是一个自动递增的ID字段，假设值范围从1到2,000,000
但是，由于用户选择处理一些非常旧的数据以及一些非常新的数据，中间没有任何数据，因此大多数数据的 ID 值要么低于 100,000，要么超过 1,900,000。

我的第 1 名和第 20 名执行者会承担大部分工作，而其他 18 名执行者则大部分闲置吗？
如果是这样，有办法防止这种情况发生吗？

我找到了一种手动指定分区边界的方法，方法是使用带有谓词参数的 jdbc 构造函数.

它允许您显式指定要插入到每个分区的“where”子句中的各个条件，从而允许您准确指定每个分区将接收的行范围。因此，如果您没有用于自动分区的均匀分布列，您可以自定义自己的分区策略。

如何使用它的示例可以在接受的答案中找到这个问题.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

JDBC

apachesparksql

partitioning

JDBC 到 Spark Dataframe - 如何确保均匀分区？的相关文章

java中import和class.forName的区别

import 和 class forName 都会加载类文件当我在jsp文件中做一个导入mysql数据的例子时需要通过class forName导入驱动类当我通过import语句导入jdbc驱动程序时它无法从tomcat服务器中的m
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
Clojure MySQL 语法错误异常（“[...] 靠近 '???????????????' [...]”）

除了建立连接之外我在使用 clojure contrib sql 做任何事情时都遇到困难我有一个 mysqld 在 localhost 3306 上运行数据库名为clj db 用户 clj user localhost 和密码 clj
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
如何将未知列数的 ResultSet 映射到 List 并将其显示在 HTML 表中？

我使用 Netbeans GlassFish 和 JavaDB 创建了一个数据库应用程序现在我的控制器 Servlet 代码执行一些动态 SQL 查询并返回结果集或者我可以更改 toString 现在如何以表格格式显示返回的结果集我
通过 JDBC 调用 Sybase 存储过程时结果集为空

我正在调用一个通过 JDBC 返回多个结果集的 Sybase 存储过程我需要获取一个特定的结果集其中有一列名为结果这是我的代码 CallableStatement cs conn prepareCall sqlCall cs reg
尝试从 Spark 连接到 Oracle

我正在尝试将 Oracle 连接到 Spark 并希望从某些表和 SQL 查询中提取数据但我无法连接到 Oracle 我尝试过不同的解决方案但没有看到我已按照以下步骤操作如果我需要进行任何更改请纠正我我使用的是 Windows
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
后台线程的 JDBC 连接在 Websphere 中关闭访问

我有一个应用程序在Websphere Application Server 6 0 WAS 内的Websphere Portal Server 中运行在此应用程序中对于一个需要很长时间才能完成的特定功能我将触发一个执行此操作的新线程
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
Oracle 更新/插入卡住、DB CPU 为 100%、并发度高、来自客户端的 SQL*Net 等待消息

我们有一个 JavaEE 应用程序在 Weblogic 上针对 Oracle 11g DB 运行使用瘦 JDBC 驱动程序最近我们在生产中发生了一系列事件其中某个表的更新和插入被卡住或花费的时间比正常情况长得多而且没有明显的原因
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
分区表查询仍然扫描所有分区

我有一个包含超过十亿条记录的表为了提高性能我将其分区为30个分区最常见的查询有 id 在他们的 where 子句中所以我决定对表进行分区id column 基本上分区是这样创建的 CREATE TABLE foo 0 CHECK
如何调试 Spark 工作线程上的映射函数中的错误？

我是 Spark 新手正在努力寻找自己的方法我有一个 Spark 应用程序它在dataset 此地图功能可能会因主要与数据相关的原因而失败我怎样才能获得一些关于问题所在的有意义的信息我不知道从哪里开始非常感谢如果您想编写单元测
使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
将结构数组分解为 Spark 中的列

我想将结构数组分解为列由结构字段定义例如 root arr array nullable true element struct containsNull true id long nullable false name string

随机推荐

文件夹中的文件以绿色突出显示，旁边有数字 1。这意味着什么？

Yesterday a few files in one of my folders git repository have turned green and have a number next to them like so Can a
以类型安全的方式处理 PropertyChanged

有很多文章介绍如何使用反射和 LINQ 以类型安全的方式引发 PropertyChanged 事件而不使用字符串但有什么办法可以consumePropertyChanged 事件以类型安全的方式发生目前我正在这样做 void mod
有没有办法从某种类型的 JSON.NET JObject 中删除节点？

我有一个从 API 返回的 JSON 对象其中一些节点是数组有什么方法可以让我完全根据类型将它们从对象中提取出来吗例如 result field1 value1 field2 val2 val3 field3 val4 field
laravel 自动删除 php artisanserve 上的 server.php

我在 Windows 环境中使用 laravel 5 6 使用 php 7 2 与 xampp 一起安装安装 laravel 后 php artisanserve 命令可以工作但会自动删除 server php 文件只是为了避免这个问
如何设置 openai-gym 环境以特定状态而不是“env.reset()”开始？

今天当我尝试在openai gym环境下实现一个rl agent时我发现一个问题似乎所有的agent都是从最初始的状态开始训练的 env reset i e import gym env gym make CartPole v0 in
- 中吗？
我需要一些有关 HTML 中嵌套列表的指导我有一个布局我想像下面这样构建嵌套一个未被包裹的元素是一件可怕的事情吗 li 我相当确定它不符合标准但不知道它会产生什么不良影响 ul li h1 header 1 h1 li li ul
Mongoose 将存储的 UTC 日期转换为本地时间？

我想知道这是否正常或者我是否在架构设置或查询过程中遗漏了某些内容我的应用程序和猫鼬在 mongodb 中正确存储了 UTC 日期通过 mongo shell 查看文档可以确认这一点当我通过 mongoose 从 mongodb 检索
在 SQL Server 中将 varchar 转换为 uniqueidentifier

我无法控制其架构的表包含定义为 varchar 50 的列该列以 a89b1acd95016ae6b9c8aabb07da2010 格式存储唯一标识符无连字符我想将它们转换为 SQL 中的唯一标识符以便传递给 Net GUID 但是
在 Spring MVC 中从控制器查找区域设置

我正在使用 Spring 3 0 如何在基于注释的控制器中找到由 LocaleResolver 设置的当前区域设置 Thanks 您可以声明类型的参数Locale在你的控制器方法中 RequestMapping public ModelAn
使用 Java API 将 Parquet 格式写入 HDFS，而不使用 Avro 和 MR

简单的写法是什么实木复合地板格式 to HDFS 使用Java API 通过直接创建 Parquet SchemaPojo 的不使用avro and MR 我发现的示例已经过时并且使用已弃用的方法还使用 Avro spark 或 MR
应用程序池和工作进程线程之间有什么关系？

我正在对 ASP NET 应用程序中的重新启动进行故障排除该应用程序每天重新启动大约 20 次我们强烈怀疑应用程序的一部分因为当这一特定功能投入生产时重启就开始了我已经使用 log4net 库向这些页面添加了一些日志记录但我在解
将文本附加到 RichTextBox 的最快方法？

我有一个带有 RichTextBox 控件的应用程序其中的过程几乎总是添加文本 RichTextBox1 Text vbNewLine Title AlbumName RichTextBox1 Text vbNewLine Genre A
序数编码或 One-Hot 编码

如果我们不确定分类特征的性质例如它们是名义特征还是序数特征我们应该使用哪种编码序数编码还是单热编码关于这个主题有明确的规则吗我看到很多人在没有方向的分类数据上使用序数编码假设有一个频数表 some data some col v
Swift 中开关盒的详尽条件

苹果文档 says 每个 switch 语句都必须是详尽的也就是说每一个可能的正在考虑的类型的值必须与其中之一匹配切换案例所以在新的 Xcode 中我放置了这样的代码 println UInt16 min Output 0 pri
C# 通过 T 的成员对列表进行二进制搜索

我有一个基类Event with a DateTime member TimeStamp 许多其他事件类将从中派生我希望能够快速搜索事件列表因此我想使用二分搜索列表数据按时间戳排序但同时发生的事件可能存在重复的时间戳所以我开始写这
Node.js MySQL 模块 - 抛出错误； // 重新抛出非 MySQL 错误；

今天我尝试了来自 w3schools 的 node js mysql 片段 var mysql require mysql var con mysql createConnection host localhost user roots W
如何在 Coq 中使用归纳类型来处理案例

我想使用destruct通过案例来证明陈述的策略我在网上读了几个例子但我很困惑有人可以更好地解释一下吗这是一个小例子还有其他方法可以解决它但尝试使用destruct Inductive three zero one two Le
Visual Studio C++ 是否可以在不链接的情况下编译对象

我正在运行 VS 2010 SP1 并且有一个每周运行一次的特殊分析配置因为构建服务器需要很长时间来分析所有内容我希望此配置无需链接即可运行如果分析通过了项目中的所有代码那么我希望构建继续进行下一个项目而不链接我看不出有什么方法可
Python套接字接受块-防止应用程序退出

我编写了一个非常简单的 python 类它等待套接字上的连接目的是将此类粘贴到现有应用程序中并将数据异步发送到连接的客户端问题是当等待 socket accept 时我无法通过按 ctrl c 来结束我的应用程序我也无法检测到
JDBC 到 Spark Dataframe - 如何确保均匀分区？

我是 Spark 新手正在致力于通过 JDBC 从 Postgres 数据库表创建 DataFrame 使用spark read jdbc 我对分区选项有点困惑特别是分区列下界上限 and 分区数文档似乎表明这些字段是可选的如果

JDBC 到 Spark Dataframe - 如何确保均匀分区？

JDBC 到 Spark Dataframe - 如何确保均匀分区？ 的相关文章

随机推荐

热门标签

JDBC 到 Spark Dataframe - 如何确保均匀分区？的相关文章