如何设置newAPIHadoopFile的分区数量？

2024-02-20

老人”SparkContext.hadoopFile需要一个minPartitions参数，这是分区数量的提示：

def hadoopFile[K, V](
  path: String,
  inputFormatClass: Class[_ <: InputFormat[K, V]],
  keyClass: Class[K],
  valueClass: Class[V],
  minPartitions: Int = defaultMinPartitions
  ): RDD[(K, V)]

但并没有这样的说法SparkContext.newAPIHadoopFile:

def newAPIHadoopFile[K, V, F <: NewInputFormat[K, V]](
  path: String,
  fClass: Class[F],
  kClass: Class[K],
  vClass: Class[V],
  conf: Configuration = hadoopConfiguration): RDD[(K, V)]

In fact mapred.InputFormat.getSplits需要一个提示参数，但是mapreduce.InputFormat.getSplits需要一个JobContext。通过新的 API 影响 split 数量的方法是什么？

我尝试过设置mapreduce.input.fileinputformat.split.maxsize and fs.s3n.block.size on the Configuration对象，但没有任何效果。我正在尝试从以下位置加载 4.5 GB 文件s3n，并且它被加载到单个任务中。

https://issues.apache.org/jira/browse/HADOOP-5861 https://issues.apache.org/jira/browse/HADOOP-5861是相关的，但它表明我应该已经看到多个分割，因为默认块大小是 64 MB。

功能newApiHadoopFile允许您传递配置对象，以便您可以设置mapred.max.split.size.

尽管这是在mapred因为似乎没有新的选项，所以我想新的 API 会尊重该变量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

如何设置newAPIHadoopFile的分区数量？的相关文章

猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP

随机推荐

Laravel 重写引导模板

因此我在项目中添加了自定义 app css 并且使用引导模板现在当我在 app css 中创建新的按钮样式时它可以在任何地方访问因为我获得了主模板并且其他页面正在扩展它所以在每个页面上但是当我在 app css 中覆盖引导主
android.support.v7.app.MediaRouteButton 不显示

这是我的布局
如何在pygame中将三角形旋转一定角度？

我需要在屏幕中心旋转一个三角形不是图像我看到其他人回答了这个问题但三角形不能指向上方我尝试过使用其他人的功能但他们认为只能部分工作就像我上面提到的功能一样 import pygame disp pygame display se
正则表达式性能：Boost 与 Perl [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找 perl 和 boost 正则表达式之间的性能比较我需要设计一段非常依赖正则表达式的代码
WPF：如何以原始尺寸显示图像？

我在 WPF 中显示图像时遇到问题这是我的代码
以编程方式更改布局的前景色

我想更改线性布局的前景色这是我的代码 layout setForeground new ColorDrawable getResources getColor R color svbackclr 但是这个调用需要最低 api 级别 23
SQL 关键字“ISABOUT”[已弃用？] 应该替换为什么？

在 MS SQL 全文搜索中我在查询中使用 ISABOUT 例如这应该返回前 10 名ProductIDs PK 与RANK领域在ProductDetails Table SELECT FROM CONTAINSTABLE Produc
连接浏览器和广告商而不在多点连接中显示警报消息

目前我正在探索多点连接框架我的应用程序广告商和浏览器中有 2 个选项因此当用户在一台设备上启动浏览器而在另一台设备上启动广告商时他们应该能够找到彼此当该设备出现在浏览器中并且用户点击它时将向拥有广告设备的用户显示警报允许他们
角度测试台覆盖模块不工作

当对测试夹具使用以下配置时我收到关于找不到标签的抱怨替换为MockSelectionToolComponent直接在AppModule工作正常所以一定是别的东西 Add the imported module to the impor
MySQL服务器消失了

我在 MySql 服务器上执行此查询它给出了 MySQL 服务器已消失错误在下面的查询中我的两个表都有超过 1000000 行 SELECT a tab 11 10 url as url a tab 11 10 c5 as t1 a
如何比较两个雄辩的集合并从另一个集合中删除其中的内容？

我有所有门的集合以及当前用户有权访问的门的集合如何比较两者并从所有门集合中删除用户已有权访问的门 doors Door orderBy name asc gt get users doors user gt doors 这是两个集合 U
删除或禁用 RAP/RCP EditorPart 上显示的“X”关闭按钮

我正在开发一个显示 ViewPart 和 EditorPart 的 RAP 应用程序我试图找到一种方法来防止所有编辑器部分关闭有没有办法删除或禁用编辑器部分显示的 X 关闭按钮你可以这样做我写的大致相同例如 http wik
如何启用即席分布式查询

当我运行查询时OPENROWSET在 SQL Server 2000 中它可以工作但 SQL Server 2008 中的相同查询会生成以下错误 SQL Server 阻止了对组件临时分布式查询的语句 OpenRowset OpenD
动态 Telerik RadOutlookBar 标题与 ItemTemplate 出现错误

我正在尝试以 MVVM 方式使用 Telerik RadControls 但遇到了一些奇怪的问题 RadOutlookBar 背后的 Viewmodel 有一个 ViewModel 集合每个 ViewModel 都有一个 Title 字符
如何播放本地文件中的音频？

我想播放下载的本地音频文件但它不播放 class AVPlayerService static let instance AVPlayerService private var audioPlayer AVPlayer public we
是否有 CGPath 的替代方案可以计算给定位置路径上的点？

对于动画计时算法我需要提供一条路径作为曲线可能是两端都有控制点的贝塞尔曲线问题是似乎不可能计算 CGPath 上的点因为 CGPathRef 是不透明的 Apple 也没有提供计算路径上的点的机制是否有一个库或实用程序类可以计算贝
招摇错误：schemaIds 冲突：检测到类型 A 和 B 的重复 schemaIds

使用Web API并使用swashbuckle生成swagger文档我在两个不同的命名空间中定义了两个具有相同名称的不同类当我在浏览器中打开 swagger 页面时它显示 schemaId 冲突检测到类型 A 和 B 的 schem
React.js：非 CSS 动画

反应文档 http facebook github io react docs 没有任何关于处理非 CSS 过渡的动画例如滚动位置和 SVG 属性的动画至于 CSS 过渡有一个附加组件 http facebook github io
如果不断增加访问内存超过 malloc() 分配的大小，linux glibc 中会发生什么[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案似乎评论答案只是停留在 C 标准描述上让我们更深入地讨论具体的实现我在其他讨论中看到以下代码 struct size t x char
如何设置newAPIHadoopFile的分区数量？

老人 SparkContext hadoopFile需要一个minPartitions参数这是分区数量的提示 def hadoopFile K V path String inputFormatClass Class lt InputFo

如何设置newAPIHadoopFile的分区数量？

如何设置newAPIHadoopFile的分区数量？ 的相关文章

随机推荐

热门标签

如何设置newAPIHadoopFile的分区数量？的相关文章