将文件（配置）从 HDFS 复制到每个 Spark 执行器的本地工作目录

2023-12-13

我正在研究如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 Spark 执行器的本地工作目录。

我最初考虑使用 Spark-Submit 的 --files FILES 选项，但它似乎不支持任意嵌套的文件文件夹。因此，看来我必须将此文件夹放在共享 HDFS 路径上，以便在运行作业之前由每个执行器正确复制到其工作目录，但尚未找出如何在 Java 代码中正确执行此操作。

或者zip/gzip/archive这个文件夹，放在共享HDFS路径上，然后将存档解压到每个Spark执行器的本地工作目录。

任何帮助或代码示例表示赞赏。

这是配置文件的文件夹，它们是计算的一部分，应该与spark-submit主jar位于同一位置（例如数据库文件，运行作业时使用哪个jar代码，不幸的是我无法更改此依赖项，因为我我正在重用现有代码）。

问候， -尤里

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Hadoop

apachespark

HDFS

sparksubmit

将文件（配置）从 HDFS 复制到每个 Spark 执行器的本地工作目录的相关文章

Java中如何合并两个数组？

它不是连接而是合并两个数组使它们成为名称值对的数组 firstarray a aa aaa secondarray b bb bbb result a b aa bb aaa bbb 最好的方法是什么 in Java public sta
Java 7u51/7u55 带星号的清单变量

我正在部署一个小程序其中包含清单中的下一个变量 Manifest Version 2 0 Ant Version Apache Ant 1 8 2 Trusted Library true Permissions all permissi
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
JSF-2 应用程序中的服务器端计时器

在我正在开发的 JSF 2 应用程序中当用户执行操作时我需要启动服务器端计时器这个计时器必须与应用程序本身相关因此它必须在用户会话关闭时继续存在为了解决这个问题我想使用 java util Timer 类在应用程序范围的 bea
在 Java 中生成 LaTeX 输出 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有用于从 Java 生成 LaTeX 输出的 Java 库渲染乳胶 JLatex数学 https
Map：为 Integer 和 Double 类型定义方法，但不为 String 类型定义方法

我正在尝试定义一个方法putIfGreaterThan 为了我的新Map class 给定一个键仅当新值大于旧值时它才会用新值替换旧值我知道我可以通过组合来实现这一点通过有一个private final Map
无法删除临时文件夹（有时）

当我启动应用程序时我创建一个临时文件夹 public static File createTempDir String name throws IOException File tempDir File createTempFile na
如何组合 3 个或更多 CompletionStages？

如果有 2 个 CompletionStages 我可以将它们与thenCombine method CompletionStage a aCompletionStage getA CompletionStage b bCompletion
在实现接口的类上强制使用单例模式

我最好用一个例子来解释这个问题我有一个接口模型可用于访问数据模型可以有不同的实现可以以各种格式表示数据例如 XMl txt 格式等 Model不关心格式可以说这样的一个实现是myxml模型现在我想强迫myxml模型以及其他所有实
从侦听器中修改 JFrame [重复]

这个问题在这里已经有答案了可能的重复如何在框架可见后调用 setUndecorated https stackoverflow com questions 875132 how to call setundecorated after
Java/Hibernate - 异常：内部连接池已达到其最大大小，当前没有可用的连接

我第一次在大学项目中使用 Hibernate 而且我还是个新手我想我遵循了我的教授和我阅读的一些教程给出的所有指示但我不断收到标题中的异常 Exception in thread main org hibernate Hibernate
为什么从类构造函数调用的方法应该是最终的？ [复制]

这个问题在这里已经有答案了我是一名 Java 新手我试图理解 Oracle 网站教程中的以下行 https docs oracle com javase tutorial java IandI final html https docs
Java 中的连接路径

In Python我可以连接两条路径os path join os path join foo bar gt foo bar 我正在尝试在 Java 中实现相同的目标而不用担心是否OS is Unix Solaris or Windows
Java环境变量设置方法

我已将以下行插入 bash profile export GOOGLE APPLICATION CREDENTIALS Users jun Downloads export PATH PATH GOOGLE APPLICATION CRED
为什么 OOP 中静态类的最佳实践有所不同？

我目前正在阅读有关 Java 最佳实践的内容我发现根据这本书 https rads stackoverflow com amzn click com 0321356683我们必须优先选择静态类而不是非静态类我记得在 C 最佳实践中我们
java - 简单计算在多线程中比在单线程中花费更长的时间

我试图了解如何利用多线程我写了一个简单的程序来增加i 比方说使用两种方式 400 000 次单线程方式 0 到 400 000 和多线程方式在我的例子中 4 次 0 到 100 000 线程数等于Runtime getRuntime
Bipush 在 JVM 中如何工作？

我知道 iload 接受整数 1 到 5 但是如何使用 bipush 指令扩展到更高的数字特定整数如何与字节码一起存储有几种不同的指令可用于推送整数常量最小的是iconst 指令这些只是一个字节因为该值是在操作码本身中编码的 ic
Selenium Webdriver - 单击多个下拉菜单时出现陈旧元素异常，而 HTML DOM 不会更改

我尝试自动化一个场景其中条件是我必须从下拉列表中选择一个选项然后它旁边有另一个下拉列表我必须单击下一个下拉列表中的一个选项才能启用按钮我尝试使用代码但它仅单击第一个选项并显示错误为过时的元素引用元素未附加到页面文档请帮忙如
RetentionPolicy CLASS 与 RUNTIME

两者之间有什么实际区别RetentionPolicy CLASS and RetentionPolicy RUNTIME 看起来两者都被记录到字节码中并且无论如何都可以在运行时访问无论如何两者都可以在运行时访问那不是那个javado

随机推荐

运行 docker run 时出现错误：来自守护进程的错误响应

运行 docker 命令时出现错误我已经在 Google Cloud VM 中成功安装了 Docker 我已经安装了 Ubuntu 18 04 映像安装后运行 docker run 时出现以下错误 docker Error respon
Java Graphics2D 转换和缩放

我有个问题我希望能够放大我的Graphics2D使用鼠标滚轮屏幕但我希望能够翻译Graphics2D这样它就位于我缩放的位置到目前为止发生的事情是这样的 http cdn makeagif com media 6 11 2015 E0
在 Android Phonegap 中手动暂停应用程序

是否可以手动暂停 Android PhoneGap 应用程序当有人单击按钮时我需要暂停应用程序并转到后台我用了navigator app exitApp 但它完全关闭了应用程序我不想关闭应用程序只是像使用本机后退按钮一样卸载请帮
requests.get() 404 响应后未捕获 requests.HTTPError

我的请求库有一个小问题举例来说我在 Python 中有这样的语句 try request requests get google com admin Should return 404 except requests HTTPError
如何使用汇编中的所有其他指令来实现 MUL？

假设我已经在汇编机中实现了所有 ADD AND SHF JUMP BR LDW LDB 加载字加载字节除了 MUL 多个指令现在我想编写汇编代码来操作MUL指令该指令接收存储在0x4000 a 和0x4001 b 每个8位中的数据
当参数是 String 和 RegExp 类时，Angular 2 表单验证器中的 RegEx 会产生不同的结果

我正在尝试使用 Angular 2 表单验证器和我放入的正则表达式来验证基本表单元素Validators pattern 匹配有效的 URL 就是匹配当参数是字符串数据类型时理论上无效的模式 example component ts thi
如何检查可选功能参数是否设置

Python 中是否有一种简单的方法来检查可选参数的值是否来自其默认值或者是因为用户在函数调用时显式设置了它并不真地标准方法是使用用户不希望传递的默认值例如一个object实例 DEFAULT object def foo para
C# 中的命名约定 [关闭]

Closed 这个问题是基于意见的目前不接受答案 C 普遍接受的命名约定是什么函数类参数局部变量命名空间等微软有一个优秀的班级图书馆设计指南集包括一个命名部分简而言之括号中的示例类结构 PascalCase WebR
如何从 Matlab 命令提示符关闭一个或所有当前打开的 Matlab (*.m) 文件？

我在网上找到了一个解决方案见下文大约 2009 年该解决方案在我的机器 Windows 7 Matlab R2013a 上不起作用 Editor com mathworks mlservices MLEditorServices Ed
如何使用 iTextSharp 打印网格视图

如何在 asp net 中使用 iTextSharp 打印 GridView 数据全部我只需要一个提示而不是完整的代码尝试用这个 protected void ExportToPDF GridView gvReport bool La
通过循环添加 JPanel

成功了感谢你们代码如下我用了BoxLayout因为我认为这对于将问题一个一个地堆叠起来是理想的但现在我遇到了布局问题当我堆叠几个问题时问题面板开始重叠有什么想法吗 panels1 new MultipleChoice 5 se
在 erb 模板中禁用 HTML 转义

在 Rails 3 应用程序中我有一个域类其中一个属性存储纯 HTML 内容它是一个博客应用程序域类是 Post 在 ERB 模板中我需要显示格式化后的属性内容并放置 HTML 标签但是 Rails 正在转义所有 HTML 标
是否有受支持的方法来获取 H2O 模型在训练期间使用的功能列表？

这就是我的情况我有 400 多个特征其中许多可能无用而且通常为零我希望能够使用这些特征的子集训练模型查询该模型以获取实际用于构建该模型的功能构建一个仅包含这些特征的 H2OFrame 我为我想要预测的每一行得到一个稀疏的非零值
如何在 Wp7 应用程序中处理 Web 浏览器后退和前进导航

我在 Windows Phone 7 应用程序中使用网络浏览器我只想知道如何像任何桌面浏览器一样处理其后退和前进导航以及如何阻止特定导航我提到here和许多其他人但找不到任何对我有用的东西请帮忙您可以通过处理 OnNavigat
InsertMenu/AppendMenu - 如何使用 C++ 和 win32 将图标添加到菜单和子菜单

我使用 C 和 win32 编程编写了一个 shell 扩展 dll 上下文菜单程序开发环境是Visual Studio 2008和2010 在下面的示例代码中我尝试仅为主菜单添加菜单图标主菜单不显示菜单图标我需要为所有菜单项添加图
将 ajax 结果存储在 jQuery 变量中

我开始使用 jQuery 和 ajax 从数据库获取数据但我不知道如何将 get 的结果保存到回调函数外部的变量中这是我的 jquery 脚本 var result get test php function data result d
AKAudioPlayer：扬声器没有声音，只有耳机有声音

使用 AudioKit 进行声音管理我注意到这段非常简单的代码存在问题错误 import AudioKit class MainViewController UIViewController var audioFile AKAudioF
Intent Action_dial 在 android 11 中不起作用

我目前正在开发一个 Android 应用程序需要一个启动电话的功能所以我添加了这段代码 public void dialPhoneNumber String phoneNumber Intent intent new Intent In
Folium 中的 HeatMapWithTime 插件

我能够创建热图但点未显示 import folium import folium plugins as plugins import numpy as np import pandas as pd import geopandas as
将文件（配置）从 HDFS 复制到每个 Spark 执行器的本地工作目录

我正在研究如何使用 Java 将包含资源依赖项文件的文件夹从 HDFS 复制到每个 Spark 执行器的本地工作目录我最初考虑使用 Spark Submit 的 files FILES 选项但它似乎不支持任意嵌套的文件文件夹因此看来

将文件（配置）从 HDFS 复制到每个 Spark 执行器的本地工作目录

将文件（配置）从 HDFS 复制到每个 Spark 执行器的本地工作目录 的相关文章

随机推荐

热门标签

将文件（配置）从 HDFS 复制到每个 Spark 执行器的本地工作目录的相关文章