如何更改 Spark 程序的 HDFS 复制因子？

2024-03-29

我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1。在搜索时，我想出了“spark.hadoop.dfs.replication”属性，但是通过查看https://spark.apache.org/docs/latest/configuration.html https://spark.apache.org/docs/latest/configuration.html，它似乎已经不存在了。那么，如何从 Spark 程序或使用 Spark-submit 更改 hdfs 复制因子？

你应该使用spark.hadoop.dfs.replication在 Spark 应用程序中设置 HDFS 中的复制因子。但为什么你找不到它https://spark.apache.org/docs/latest/configuration.html https://spark.apache.org/docs/latest/configuration.html？那是因为那个链接ONLY包含spark特定配置。事实上，您设置的任何属性都以spark.hadoop.*将自动转换为 Hadoop 属性，剥离开头“spark.haddoop.“。您可以在以下位置找到它的实施方式：https://github.com/apache/spark/blob/d7b1fcf8f0a267322af0592b2cb31f1c8970fb16/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala https://github.com/apache/spark/blob/d7b1fcf8f0a267322af0592b2cb31f1c8970fb16/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala

你应该寻找的方法是appendSparkHadoopConfigs

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何更改 Spark 程序的 HDFS 复制因子？的相关文章

使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
Scala 方法和高级类型参数

我试图在 scala 中定义一个方法它采用通用类型S lt Seq Double 并返回一个 S FixedLoad FixedLoad 是一个具体类型但我的实现给了我错误我不明白为什么尽管我多次尝试去理解参数类型和高级类型但我的
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
压缩 HList 的函数的推断类型

谢谢https github com milessabin shapeless wiki Feature overview shapeless 2 0 0 https github com milessabin shapeless wiki
实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
从继承的受保护 Java 字段创建公共访问器

我怎样才能完成以下工作 class Foo extends javax swing undo UndoManager increase visibility works for method override def editToBeUnd
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
scala 中 'Array[Int]' 隐式转换为 'Int => Int' 的地方在哪里？

这是一个问题this https stackoverflow com questions 70000384 why val arr int int array1 2 3 is allowed in scala 现在我们已经证明了Array
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
Scala repl 抛出错误

当我打字时scala在终端上启动 repl 它会抛出此错误 scala gt init error error while loading AnnotatedElement class file usr lib jvm java 8 ora

随机推荐

大于/小于的 switch 语句

所以我想使用这样的 switch 语句 switch scrollLeft case lt 1000 do stuff break case gt 1000 lt 2000 do stuff break 现在我知道这些陈述中的任何一个 lt
如何找到多维数组的 .index

尝试了网络资源但没有任何运气和我的视觉快速入门指南如果我有二维多维数组 array x x x x x S x x x x x print array index S it returns nil 然后我去输入 array x S x
Facebook PHP SDK - 无法正确注销

我花了几个小时寻找这个问题的解决方案但找不到适合我的解决方案当我在网站上单击注销时用户信息仍然可见并且仍然显示注销按钮这是代码 require facebook php sdk src facebook php faceboo
Netlify 重定向不起作用 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案所以昨天我遇到了问题因为我无法对 GitHub 页面上托管的页面实施 301 重定向今天我发现 Netlify 应该
为什么我不能在 build() 中使用 context.read，但可以将 Provider.of 与 Listen: false 一起使用？

文档中指出这些是相同的并且context read只是一个捷径Provider of
无法将 openlayers-3 与 webpack 一起使用

我必须将 openlayers 包含在我正在开发的项目中我已经尝试过将其包含在ext文件夹和 npm 我在我的工作流程中使用 Webpack 编译时我在控制台中收到以下警告 WARNING in openlayers dist ol j
基于 Observable 的 API 和取消订阅问题

我正在尝试使用 Rx Java 创建一个用于 Android 上位置跟踪的类我仍然不知道如何正确处理我的 Observable 的生命周期我想要的是一个 Observable 它在第一次订阅发生时开始跟踪位置并在最后一次订阅被丢弃时停
使用承载授权将 PouchDB 同步到 Cloudant 时出现错误

我是一名经验丰富的 JavaScript 程序员但对 PouchDB Cloudant 和 oAuth 还很陌生当我尝试使用承载授权同步 PouchDB 和 Cloudant 时出现错误 reader access is requir
如何停止滚动比div高度长的div？

我有图像与右侧对齐位置是固定的并且大文本内容与左侧对齐如何做到右侧的图像和文本内容只能通过使用 bootstrap 来滚动这是我的代码感谢您的时间和建议
BigQuery 是否支持“立即执行”命令来运行动态查询？

我可以在 Oracle 中编写这样的代码使用动态创建表立即执行 sql 查询命令 create or replace function make a table1 p table name varchar2 p column nam
尝试在 SQLAlchemy 上运行插入语句时出现编译错误

我正在编写的脚本从 API 请求新闻文章元数据作为响应它收到包含多篇新闻文章的结果页面它旨在一次处理一个记录从 json 字典中提取数据字段并将它们插入到 postgres 中但是当我运行插入操作时该函数返回 CompileE
如何仅为特定存储库设置 GIT_SSL_NO_VERIFY？

我必须使用没有适当证书的 git 服务器但我不想这样做 env GIT SSL NO VERIFY true git command 每次我进行 git 操作时但我还想为其他 git 存储库启用 SSL 有没有办法使它成为单个存储库的本
如何在 Vaadin Flow 中使用 Material 图标 (14.6)

我想在 Vaadin 14 6 应用程序中使用 Material 图标我找到了 Lumo 和 Iron 图标的食谱here https vaadin com docs v14 flow components tutorial flow i
Google App Engine 灵活环境中“无法导入 google/appengine/ext/deferred/handler.py”

我使用 App Engine 灵活环境以前称为托管虚拟机最近升级到最新的 gcloud SDK 它包括一些新错误 ERROR gcloud preview app deploy Error Response 400 Invalid ch
MYSQL：仅选择最新记录（在左连接表上）

我有 2 张桌子 Table1 ID Mobile Number Name Ordered Product Order Date Table2 ID foreign key can be inserted multipletimes in
具有用户管理功能的网站的最佳起点

我即将开始创建一个具有标准用户管理客户登录和处理更改客户详细信息等我自己的功能的新网站我正在寻找最有效的方法来做到这一点我了解 PHP CSS Jquery 相当不错我以 Drupal 为起点发现它对于我的需求来说太麻烦了
TIdHTTP - Delphi XE 下会话已过期消息

我正在尝试将我的代码从 Delphi 2007 移植到 Delphi XE 尚未更新 1 我偶然发现的问题是在 Delphi XE 下我在发送第二条 GET 消息后从服务器得到不同的响应格式化 HTML 中的消息表明我的会话已过期然
使用 PowerShell 查看全局程序集缓存 (GAC) 的内容

有没有办法使用PowerShell查看GAC的内容另一种选择是PowerShell 社区扩展 http pscx codeplex com安装 GAC 提供程序因此您可以执行以下操作 dir gac 如果您使用的是 PowerShell
如何检测类中是否存在特定的成员变量？

为了创建算法模板函数我需要知道作为模板参数的类中的 x 或 X 以及 y 或 Y 当我将我的函数用于 MFC CPoint 类或 GDI PointF 类或其他一些类时它可能很有用他们都在其中使用不同的 x 我的解决方案可以简化为以下
如何更改 Spark 程序的 HDFS 复制因子？

我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时我想出了 spark hadoop dfs replication 属性但是通过查看https spark apache org docs latest con

如何更改 Spark 程序的 HDFS 复制因子？

如何更改 Spark 程序的 HDFS 复制因子？ 的相关文章

随机推荐

热门标签

如何更改 Spark 程序的 HDFS 复制因子？的相关文章