Spark Dataframe的分区数量

2023-11-22

谁能解释一下将为 Spark Dataframe 创建的分区数量。

我知道对于 RDD，在创建它时我们可以提及分区的数量，如下所示。

val RDD1 = sc.textFile("path" , 6)

但是对于 Spark 数据帧，在创建时看起来我们没有像 RDD 那样指定分区数量的选项。

我认为唯一的可能性是，创建数据帧后我们可以使用重新分区 API。

df.repartition(4)

那么任何人都可以告诉我我们是否可以在创建数据框时指定分区的数量。

你不能，或者至少在一般情况下不能，但它与 RDD 相比并没有那么不同。例如textFile您提供的示例代码仅设置了限制最小分区数.

一般来说：

Datasets使用类似方法在本地生成range or toDF在本地集合上将使用spark.default.parallelism.
Datasets创建自RDD从其父级继承分区数量。
Datsets使用数据源API创建：
- 在 Spark 1.x 中，通常取决于 Hadoop 配置（最小/最大分割大小）。
- 在 Spark 2.x 中正在使用 Spark SQL 特定配置.
某些数据源可能提供额外的选项，以便更好地控制分区。例如，JDBC 源允许您设置分区列、值范围和所需的分区数量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

apachesparksql

Spark Dataframe的分区数量的相关文章

外部合并后保留 Dataframe 列数据类型

当您使用外部合并在某些值上合并两个索引数据帧时 python pandas 会自动将 Null NaN 值添加到它无法匹配的字段这是正常行为但它会更改数据类型您必须重新说明列应具有的数据类型 fillna or dropna 合并
使用滚动标准差检测 Pandas 数据框中的异常值

我有一个用于快速傅立叶变换信号的数据帧一列表示以 Hz 为单位的频率另一列表示相应的幅度我读过几年前发表的一篇文章您可以使用一个简单的布尔函数来排除或仅包含最终数据框中高于或低于几个标准差的异常值 df pd DataFrame D
如何将Spark DataFrame插入Hive内表？

以追加模式将 DF 插入 Hive 内部表的正确方法是什么看来我们可以使用 saveAsTable 方法直接将 DF 写入 Hive 或将 DF 存储到临时表然后使用查询 df write mode append saveAsTable
将具有混合内容的命名列表转换为数据框

是否有更好更好的方法将具有混合内容的命名列表转换为数据框架工作示例 my list lt list a 1 0 b foo c TRUE my df lt data frame key names my list stringsAsFac
根据列值使用 MultiIndex 对 pandas DataFrame 进行排序

在控制台中打印后我有一个带有 MultiIndex 的 DataFrame 如下所示 value indA indB scenarioId group 2015 04 13 1 A 54 0 1 0 1 0 B 160 0 1 0 1 0
R，联合两个具有不同列名且不匹配的数据框

我想将 R 中两个不同的数据帧完全不同的列组合成一个包容性数据帧假设数据框 df 有 A 列和 B 列 df a lt read table header TRUE text A B 1 x1 2 y1 3 z1 数据框 df b 具
如何将 Python pandas 转换为 Julia DataFrame（使用 PyJulia）并返回 Python Pandas

我想用PyJulia加速代码的某些部分 import numpy as np import julia import pandas as pd import random from julia import Base from julia
如何向多重索引添加级别？

index np array foo foo qux np array a b a data np random randn 3 2 columns X Y df pd DataFrame data index index columns
检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧我想检查一列的值是否存在于另一个数据帧的列中我只看到了如何过滤存在的值的解决方案像这样 https stackoverflow com questions 41775281 filtering a
根据连续行值差异拆分数据框

我有一个这样的数据框 df col1 col2 col3 1 2 3 2 5 6 7 8 9 10 11 12 11 12 13 13 14 15 14 15 16 现在我想当两个连续行的 col1 差异大于 1 时从上面创建多个数据框所
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
选择 PySpark 数据框中的列

我正在寻找一种在 PySpark 中选择数据帧列的方法对于第一行我知道我可以使用df first 但不确定列是否存在没有列名我有 5 列想循环浏览每一列 1 2 3 4 5 6 7 1 0 0 0 0 0 0 1 0 0 0 0 0
pySpark 映射多列

我需要能够使用多列比较两个数据帧 pySpark尝试 get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them t
Python：按组计算数据框中的特定出现次数

假设我有一个 df df pd DataFrame id 12 35 37 67 99 78 product banana apple banana pear banana apple reordered 1 0 0 1 1 1 id pr
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
Spark中分布式读取CSV文件

我正在开发一个 Spark 处理框架它读取大型 CSV 文件将它们加载到 RDD 中执行一些转换最后保存一些统计数据相关 CSV 文件平均大小约为 50GB 我正在使用 Spark 2 0 我的问题是当我使用sparkConte
插值时间序列

我有两组具有不同时间戳的数据一组数据包含校准数据另一组包含样本数据校准的频率比样品少得多我想做的是将校准数据低频插值到采样时间序列高频上 sam lt textConnection time value 01 00 52 2
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl

随机推荐

Xcode 8 宏 NSLocalizedString 的不明确扩展

我的单元测试 pch 文件中有以下内容允许我的单元测试为本地化文件找到正确的包并且在我升级到 Xcode8 之前这一切都工作正常 undef NSLocalizedString define NSLocalizedString key
如何将Python回调传递给C#函数调用

我正在尝试使用 python 中的 C 类在 mono ubuntu 上使用 python net 到目前为止我成功地用一个参数完成了一个简单的函数调用我现在想做的是将 python 回调传递给 C 函数调用我尝试了下面的以下变体
如何从jquery中的json中获取不同的值

我有一个 jquery json 请求在该 json 数据中我希望能够按唯一值进行排序所以我有 people pbid 626 birthDate 1976 02 06 name name pbid 648 birthDate 1987
.Net Core JWT 身份验证与自定义 API 密钥中间件

我有一个 Net Core 2 0 应用程序它使用 JWT 令牌来授权用户这一切都工作正常但我想要某种 API 密钥机制来允许其他应用程序集成但我似乎无法让它与当前的身份验证一起工作 Code 启动 cs public void C
Oracle sqlldr 时间戳格式令人头疼

我正在努力争取sqlldr将 csv 数据文件导入到我的表中特别是时间戳字段我的 csv 文件中的数据采用以下格式 16 NOV 09 01 57 48 001000 PM 我已经在我的控制文件中尝试了各种组合但一直在兜圈子我在网上
如何在 Protractor 中截取整个页面的屏幕截图？

下列的量角器 API 文档应该有一种方法可以截取整个页面的屏幕截图而不仅仅是可见的框架事实上这应该是默认行为 When takeScreenshot 被称为像 browser takeScreenshot then function p
如何将列即时转换为 ASCII，而不保存以检查与外部 ASCII 字符串是否匹配？

我有一个成员搜索功能您可以在其中提供部分姓名并且返回的结果应该是至少具有与该输入匹配的用户名名字或姓氏之一的所有成员这里的问题是有些名字有奇怪的字符比如 in Ren e用户不想输入奇怪的字符而是输入正常的 ASCII 替代字
如何创建像 Stack Overflow 网站一样的分页

如何像stackoverflow一样创建分页您没有说明您正在使用什么服务器端技术但如果您想要纯客户端解决方案您可以看看jQuery 分页插入这是一个演示页面
从日期 PHP 获取周数（一年中）

我想确定一个日期并算出它的周数到目前为止我有以下内容它返回 24 而它应该是 42 数字颠倒是错误还是巧合或者我已经快到了今天使用PHPDateTime对象更好
如果输入为空，jQuery 输入事件不会触发

我有一个 jQuery 事件处理程序它对以下内容中的每个更改做出反应
当键盘处于活动状态时，如何避免背景图像缩小？

我想要一个带有文本输入的背景图像但我不知道应该使用哪个小部件来避免背景图像在键盘处于活动状态时缩小在这里您可以找到问题和我的代码的两个屏幕截图 class MyApp extends StatelessWidget override W
是否可以使用小数分隔符强制 Floattostr/Strtofloat 函数使用小数点

目前我将小数分隔符设置为在每个使用这些函数的过程中在程序开始时进行全局设置会容易得多但我发现 Delphi 似乎会定期将其设置回当前区域设置我需要确保所有转换都使用小数点无论程序在哪个国家地区使用因为这是此类程序的标准并且
Laravel 5 POST 路由到索引而不是存储

我正在开发一个 Laravel 5 RESTful API 它似乎没有正确路由 POST 请求这是我的routes php Route group array prefix gt api v1 function Route resourc
XAMPP 中的 phpMyAdmin 出现“配置中定义的 controluser 连接失败”

我刚刚在 Windows XP 计算机上安装了 XAMPP 但收到一条错误消息配置中定义的 controluser 连接失败在安装 XAMPP 之前我安装了一个 MySQL 数据库并且它有一个密码我更改了 MySQL 的密码并将其放
如何创建 custom.css 来覆盖 Bootstrap 4 alpha 6 中的变量

我正在尝试自定义 Bootstrap 4 alpha 6 主题我想将设置从 variable scss 文件复制到 custom scss 进行覆盖但我在源代码中没有找到 custom scss 文件如何在我的项目中添加这个 cust
在 Linux Redhat/CentOS 上为 msodbcsql17 安装 unixODBC >= 2.3.1

我尝试在使用 CentOS RedHat Linux 的 AWS EC2 上安装 msodbcsql17 这些是我遵循的来自 Microsoft 的步骤 LINK sudo su Download appropriate package f
[caffe]：检查失败：检查失败：hdf_blobs_[i]->shape(0) == num（200 vs. 6000）

我有训练并将数据标记为 data mat 我有 200 个训练数据包含 6000 个特征标签为 1 1 已保存在 data mat 中我正在尝试将数据转换为 hdf5 并使用以下命令运行 C affe load data mat hd
AVAudio播放器速率

所以我尝试在 iOS 5 1 1 中以不同的速率播放声音文件但完全没有运气到目前为止我已经尝试设置 AVAudioPlayer 的速率 player AVAudioPlayer alloc initWithContentsOfURL
Rails：违反外键约束

我有三个模型 Book genre BookGenre 以下是关系 class BookGenre lt ActiveRecord Base belongs to book belongs to genre end class Book l
Spark Dataframe的分区数量

谁能解释一下将为 Spark Dataframe 创建的分区数量我知道对于 RDD 在创建它时我们可以提及分区的数量如下所示 val RDD1 sc textFile path 6 但是对于 Spark 数据帧在创建时看起来我们没有像

Spark Dataframe的分区数量

Spark Dataframe的分区数量 的相关文章

随机推荐

热门标签

Spark Dataframe的分区数量的相关文章