Spark.csv如何确定读取的分区数？

2023-12-04

在 Spark 2.2.0 中：我正在使用以下命令读取一个文件

spark.csv.read("filepath").load().rdd.getNumPartitions

我在一个系统中为 350 MB 文件分配了 77 个分区，在另一个系统中分配了 88 个分区。我还获得了 28 GB 文件的 226 个分区，大约为 28*1024 MB/128 MB 。问题是，Spark CSV数据源如何确定这个默认的分区数？

分区数量受多种因素影响 - 通常

spark.default.parallelism
您正在读取的文件数（如果从目录中读取文件）
集群管理器/核心数量（参见火花配置）这影响spark.default.parallelism

从文本文件（以及 CSV）读取时的分区数应确定为math.min(defaultParallelism, 2)基于CSV数据源

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark.csv如何确定读取的分区数？的相关文章

为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计

随机推荐

如何使用 Java DeflaterOutputStream

编辑我真的只需要知道 Deflater 派生类何时决定写入页眉和页脚数据以及如何利用这些事实我真的很想做以下事情用一些字节为 Deflater 派生类准备字典我想我明白了发送一些要压缩的数据到 Deflater 派生类我想我明
填充第二个选择框 - 绑定问题

我使用以下代码用城市填充第二个选择框 jQuery country live change function populateCityListBox alert jQuery select city val function populat
Objective-C 从自定义单元格访问方法

好吧这可能是一个新手问题但我需要帮助我有一个 someview m 其中有一个在 customCell h 和 m 中定义的自定义单元格所以在 someview m 我有 UITableViewCell tableView UITa
如何在php中创建hmac md5？

我正在使用 payU 信用卡系统但我没办法 payU 告诉我必须创建 hmac md5 哈希值我的密钥是 3 9 X4 660 ak h6 T 我想转换为 HMAC MD5 哈希 8GEMISEPE6208617192012 12 15
创建文件夹并使 ES File Explorer 添加我的应用程序的图标

我想将文件夹与我的应用程序关联起来就像 WhatsApp 和 Viber 那样我尝试创建文件夹 File folder new File Environment getExternalStorageDirectory getPath M
注释可以出现在 DOCTYPE 声明之前吗？

我想发表评论 style 位于 HTML 代码的最顶部位于 DOCTYPE 声明之前这符合标准吗主流浏览器都支持吗这样做有什么陷阱吗 It is 完全有效 to do However 带来allIE 版本怪癖模式除非是forced
如何避免 Xstream 生成带有 & 或 "e 或类似字符的 xml 文件？

我开始工作Xstream与Java 我有一个名为的汽车列表CarList 我有一辆汽车作为一个名为Car XStream xstream new XStream new StaxDriver xstream alias Car Car cl
使用 Rvest 抓取包含多个表的 URL

我正在尝试学习如何做一些scraping使用 rvest 包我正在用这个url加载信息我试图获取 URL 中标记为高级的表的信息当我尝试加载信息时我所能得到的只是第一个表我的意思是当我使用谷歌浏览器检查时我看到表中的数字被
在 XSLT v1.0 中使用以结尾

我正在尝试编辑当前的 XSLT 我想要的功能是当 code no 的值以01结尾时我想编辑当前城市位置目前此功能不存在我尝试过使用字符串和子字符串但它给了我一个错误说结尾功能不存在请帮忙来自 xml 的值是
使 Android 模拟器适用于 1600x1200

我尝试在模拟器中将 Android 的皮肤布局编辑为 1600x1200 但模拟器无法打开窗口它适用于较小的分辨率如 1024x480 等但不适用于大分辨率尽管即使使用 1024x480 模拟器窗口的一部分也无法访问且不可见我的问
PHP 编码电子邮件地址

我需要一条路PHP仅使用对电子邮件地址进行编码a zA Z0 9所以基本上编码时没有任何特殊字符但随后能够将其解码回原始内容 Example email protected gt ENCODE gt n6bvJjdh7w6QbdVB373
NodeJS并行回调设计模式

我正在尝试找到一个好的模式来执行一堆并行任务让我定义一些任务来举例说明任务a b c d e f g执行为a function er ra task a returned ra is result so do b to g 还有一些任务
Webpack 反应热加载程序不工作

下面是我的 webpack config js 代码 var webpack require webpack var path require path module exports context dirname app entry we
右栏按钮项目不显示

我有以下用于放置 rightbarbuttonitem 的代码 UIButton rightbutton UIButton buttonWithType UIButtonTypeCustom rightbutton setBackgroun
某些 JSON 文件出现 PowerShell FilterScript 错误

感谢 iRon 本周早些时候提供的帮助question 他对我目前正在进行的一项工作提供了巨大帮助总之我们有一个 Azure CICD 管道来部署策略我们有一个包含 200 多个 JSON 策略文件的文件夹 CICD 流程将它们全部放
使用 to_html 将 CSS 类应用到 Pandas DataFrame

我在使用 Pandas to html 方法应用 classes 参数来设置 DataFrame 样式时遇到问题类 str或列表或元组默认无应用于生成的 html 表的 CSS 类从 https pandas pydata org
递归 mod_rewrite 用于搜索引擎友好的 url

我一直在读以前的解决方案递归 mod rewrite 问题与我想要做的类似不同之处在于我通过 index php 文件发送所有查询因此不需要在查询中指定脚本本质上我想递归地转换搜索引擎友好的 URL 中的任意数量的参数 example
文本框中的永久前缀

我试图在文本框中输入永久前缀就我而言我想要有以下前缀 DOMAIN 这样用户只需在域前缀后输入用户名即可这不是我必须做或追求的事情但我的问题更多是出于好奇我试图想出一些逻辑来做到这一点TextChangedEvent但是这意味着
AngularJS 应用程序的 AssertionUrl

我的申请流程是这样的用户输入 Url 然后显示 AngularJS 登录页面用户单击使用 SAML 登录并调用返回 SAML 登录 URL 的 Web API 端点 AngularJS UI 接收 SAML 登录 URL 并将用户重
Spark.csv如何确定读取的分区数？

在 Spark 2 2 0 中我正在使用以下命令读取一个文件 spark csv read filepath load rdd getNumPartitions 我在一个系统中为 350 MB 文件分配了 77 个分区在另一个系统中分配

Spark.csv如何确定读取的分区数？

Spark.csv如何确定读取的分区数？ 的相关文章

随机推荐

热门标签

Spark.csv如何确定读取的分区数？的相关文章