从外部文件加载配置的最佳 PySpark 实践是什么

2024-04-04

我想初始化配置一次，然后在我的 PySpark 项目的许多模块中使用它。

我看到有两种方法可以做到这一点。

将其加载到入口点并作为参数传递给每个函数

main.py:

with open(sys.argv[1]) as f:
    config = json.load(f)
df = load_df(config)
df = parse(df, config)
df = validate(df, config, strict=True)
dump(df, config)

但向每个函数传递一个外部参数似乎不太美观。

在config.py中加载配置并在每个模块中导入该对象

配置文件

import sys
import json
with open(sys.argv[1]) as f:
    config = json.load(f)

main.py

from config import config
df = load_df()
df = parse(df)
df = validate(df, strict=True)
dump(df)

并在每个模块中添加行

from config import config

这看起来更漂亮，因为严格来说，配置并不是函数的参数。这是它们执行的一般上下文。

不幸的是，PySpark pickle config.py 并尝试在服务器上执行它，但没有将 sys.argv 传递给它们！所以，我在运行时看到错误

  File "/PycharmProjects/spark_test/config.py", line 6, in <module>
    CONFIG_PATH = sys.argv[1]
IndexError: list index out of range

在 PySpark 中使用从文件加载的常规配置的最佳实践是什么？

您的程序在 master 上开始执行，并通过调用执行器上的一些函数将其主要工作传递给执行器。执行器是通常在不同物理机器上运行的不同进程。

因此，master 想要在执行器上引用的任何内容都需要是标准库函数（执行器可以访问）或可以发送的可挑选对象。

您通常不想在执行器上加载和解析任何外部资源，因为您总是必须将它们复制过来并确保正确加载它们...将可挑选的对象作为函数的参数传递（例如，对于UDF) 的效果要好得多，因为代码中只有一处需要加载它。

我建议创建一个config.py文件并将其作为参数添加到您的spark-submit命令：

spark-submit --py-files /path/to/config.py main_program.py

然后你可以像这样创建 Spark 上下文：

spark_context = SparkContext(pyFiles=['/path/to/config.py'])

并简单地使用import config无论您需要什么地方。

您甚至可以将整个 python 包包含在打包为单个 zip 文件（而不是单个）的树中config.py文件，但一定要包括__init__.py在每个需要作为 python 模块引用的文件夹中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

config

从外部文件加载配置的最佳 PySpark 实践是什么的相关文章

python中unicode字符串到ascii字符串的近似转换

不知道这是否微不足道但我需要将 unicode 字符串转换为 ascii 字符串并且我不希望周围有所有这些转义字符我的意思是是否有可能近似转换为一些非常相似的 ascii 字符例如 Gavin O Connor 转换为 Gav
在Python中解析空选项

我有一个应用程序允许您将事件数据发送到自定义脚本您只需布置命令行参数并指定什么事件数据与什么参数相匹配问题是这里没有真正的灵活性您制定的每个选项都将被使用但并非每个选项都必须有数据因此当应用程序构建要发送到脚本的字符串时某些
Python：我可以修改元组吗？

我有一个 2 D 元组实际上我以为它是一个列表但错误说它是一个元组但无论如何该元组的形式为浮点数 val prod id 现在我有一个字典其中包含 key gt prod id 和 value prod name 现在我想将
将 KB/MB/GB 等字符串解析为数值

为了不发明自行车我想知道是否有任何库能够将大小字符串 MB KB TB MiB KiB 等的各种表示形式解析为基于数字字节的值 ActiveState Receipes 有一个示例here http code activestate c
python 正则表达式中括号的奇怪行为

我正在编写一个 python 正则表达式它可以在文本文档中查找引用的字符串从黑匣子中记录的航空公司飞行员的引用我首先尝试编写具有以下规则的正则表达式返回引号之间的内容如果以 single 打开则仅在以 single 关闭时返回
PyKCS11 不可哈希列表

我的 python 脚本旨在获取特定 so 库中插槽令牌的详细信息输出如下所示 Library manufacturerID Safenet Inc Available Slots 4 Slot no 0 slotDescription
为什么通过selenium切换到alert不稳定？

为什么通过selenium切换到alert不稳定例如 1 运行代码一切顺利一切都很顺利但如果这段代码在几分钟内运行那么可能会出现错误例如没有可以单击的元素等等 2 在一个站点上有一个警报窗口 alert driver swi
Unpickle 二进制文件为文本[重复]

这个问题在这里已经有答案了我需要对基本上如下所示的系统进行一些维护复杂的遗留Python程序 gt 二进制pickle文件 gt 另一个复杂的遗留Python程序这需要准确弄清楚中间 pickle 文件中的内容我怀疑文件格式比生成和
Python - 如何将双引号附加到字符串并存储为新字符串？

我正在使用 Python 2 6 并且想将双引号附加到字符串并将其存储为新的字符串变量我不想打印它但稍后在我的 python 脚本中使用它例如 a apple b some function a gt b would be equal
如何在 PyCharm 中启用 flake8 的自动代码格式化

我使用 Tox 运行单元测试并使用 flake8 命令检查代码格式错误每次我在 PyCharm 中编码时我都会运行 tox 然后意识到我有一堆烦人的格式错误我必须返回并手动修复我希望 PyCharm 自动格式化代码根据 flak
模拟导入失败

我该如何制作import pkg失败moduleA py 我可以打补丁pkg如果从中导入某些内容则会失败否则不会失败 test py import os import moduleA from unittest mock import p
结束一天（日期时间）的最优雅的方式是什么？

我目前正在编写一些报告代码允许用户选择指定日期范围它的工作方式简化是用户可选指定年份用户可选指定月份用户可选指定一天这是一个代码片段以及描述我想要的内容的注释like to do from datetime i
为什么删除 DataFrame 的列或部分会增加内存使用量，以及如何确保对未使用的 DataFrame 切片进行垃圾回收

处理大型 DataFrame 时您需要小心内存使用情况例如您可能想要分块下载大数据处理这些块然后从内存中删除所有不必要的部分我找不到任何有关处理垃圾收集的最佳程序的资源pandas 但我尝试了以下方法并得到了令人惊讶的结果 im
插入失败“OperationalError：没有这样的列”

我尝试使用我尝试修复的姓名和电话创建一个数据库但它会随时向我重播 File exm0 py line 14 in
python中不规则点之间的坐标列表

想象一下我们为 x 和 y 随机选择两个介于 0 到 100 之间的点例如 95 7 35 6 现在使用简单的 pygame draw line 函数我们可以轻松地在这些点之间绘制一条没有任何间隙的线我的问题是我们如何找到两点之间
传递宏作为参数 jinja dbt

Today date milliseconds 是我在项目中的宏如何将此宏重定向为参数以便默认情况下我可以在 yml 中编写另一个宏 test valid date model column name exclude condition
Mac OS 上的 pybluez 安装错误

我尝试安装pybluez使用以下命令 pip install pybluez sudo easy install pybluez 但对于这两个命令我最终都会出错环境 Mac OSX 10 9 1 Python 2 7 点日志 cc fno
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr
Python 中的“lambda”是什么意思，最简单的使用方法是什么？

您能否给出一个示例和其他示例来说明何时以及何时不使用 Lambda 我的书给了我一些例子但它们很令人困惑拉姆达起源于拉姆达演算 http en wikipedia org wiki Lambda calculus和 AFAIK 首先实
python字符串包含双引号字符

我的输入字符串由字符组成包括双引号和单引号和 B SS JU PQ AD DDSFD ABD E J 但是当我从文本文件打开上述输入并打印它时第三行中的双引号被打印为 xe2 x80 x9d 我的目标是进行简单的字符计数 B 2

随机推荐

当页面比屏幕大时如何将div定位在屏幕中间

您好我正在使用类似于以下内容的方法来将 div 放置在屏幕中间
如何让在 IE 10、Firefox、Safari 等中显示全时间选择器

我一整天都在为此苦苦挣扎我一直在使用
React Native 图像预取

我很难理解Image prefetch 在里面doc s http facebook github io react native docs image html prefetch对此没有太多解释通过将远程映像下载到磁盘来预取远程映像以供
我应该如何将 IoC DI 与此存储库模式结合使用？

我正在使用在这个问题的答案中找到的存储库模式为每个对象创建通用存储库与特定存储库的优势是什么 https stackoverflow com questions 1230571 advantage of creating a generi
Powermock - 如何模拟特定方法并保持对象的其余部分不变

我有一个 Person 类其中设置了 FirstName LastName 执行测试用例 1 的测试类我们可以只模拟一个特定的方法 getLastName 并保留其他所有内容其他内部字段函数原样吗 public class Pe
Ruby：如何将一种方法接收到的所有参数和块传递给另一种方法？

我正在编写一个帮助程序将 HTML 属性添加到 Rails 中的 link to 标记中因此我的想法是我的辅助方法应该接受传递给它的任何参数或块使用这些相同的参数调用 link to 将其属性添加到返回的内容中并将结果返回给调用
为什么我不需要在 COM 线程内创建的线程中调用 CoInitialize？

为了学习多线程我在 COM 线程中创建了一个线程 TRemoteDataModule 这是我的组件工厂 TComponentFactory Create ComServer TServerConn2 Class ServerConn2 c
magento 获取 Base Url 、 Skin Url 、 Media Url 、 Js Url 、 Store Url 和 Current Url 以确保安全

我是新手magento 我正在开发一个模块为此我有一些css andjs我想要显示链接的文件我目前有类似的链接但在浏览了一些链接后我发现链接应
在docker容器中运行jenkins代理，jenkins管道和/var/run/docker.socket出现问题

我创建了用于詹金斯代理奴隶的图像这里是 https hub docker com r kondaurov jenkins agent dockerfile https hub docker com r kondaurov jenkins
SharePoint 计时器作业添加列表项，但不触发关联的工作流

我有一个名为会话的列表该列表有一个用于项目创建修改的工作流程当我使用 Web 部件以及手动添加项目时工作流程会触发我开发了一个每天运行的计时器作业它将项目添加到会话列表中当计时器作业将项目添加到列表时工作流程不会触发
属性“history”在“Router”中被标记为必需，但其值为“undefined”。在路由器中

我是 ReactJs 的新手这是我的代码 var React require react var ReactDOM require react dom var Route Router IndexRoute hashHistory req
在没有 SD 卡的情况下安装 Android 应用程序

我将 apk 文件上传到网络服务器并尝试从手机上的浏览器访问该链接当我尝试从该链接下载时我收到一条错误消息上面写着需要 SD 卡才能下载我没有安装 SD 卡但内部存储器未满因此我希望应用程序安装到内部存储器显而易见的解决方
off_t 且文件 > 2GB 时没有 -D_FILE_OFFSET_BITS=64

1 我想知道如果我尝试读取大于的文件会出现什么问题2GB大小无需使用选项编译我的程序 D FILE OFFSET BITS 64 using off t并使用第二个函数这一页 https stackoverflow com questi
google play 如何捕获我们手机上的异常？

我想知道 Google Play 如何能够捕获其应用程序中发生的错误列表并将其显示给开发人员背景我们正在尝试复制像谷歌商店这样的应用程序我们应该通过我们的应用程序维护一个企业应用程序列表我们希望通过我们的应用程序实现一个异常捕获框架
Excel VBA 不会保留前导零

我似乎无法找到一种方法来保存 VBA 代码中的前导零这些零是必需的因为它们对应于唯一的 ID 我尝试在 excel 中将数字格式更改为文本和 0000 并在我的实际代码中采用相同的方法 ActiveSheet Cells i j Num
Docker-machine Google (GCE) 驱动程序无法工作，无法创建实例

好吧这很容易重现但令人难以置信的令人沮丧将非常感谢任何帮助或建议我正在使用 Docker for Mac 在 OS X El Capitan 10 11 6 上运行要点是 Docker 似乎无法通过 Docker GCE 驱动程序
哪些 clang-tidy 检查提供自动修复？

我想找出哪些 clang tidy 检查可以使用 fix 选项运行即自动生成固定代码我知道所有的 Modernize 检查都可以做到这一点其他一些检查也可以比如 google readability casting 但我没有找到完整
Html5 视频和 Flash 方法

研究 HTML5 视频标签并研究哪些浏览器支持哪些视频文件类型我最初的想法是事情变得比仅仅使用 Flash 更困难我想知道是否有人已经找到一些骨架代码与视频的开发方法相结合来执行以下操作如果闪光灯可用请使用它如果没有请尝试
SimpleITK 体积数据旋转（例如 MRI）

我有一个 32x32x3 高度宽度深度的图像我试图在 satk 中围绕 z 轴旋转 45 度然而我要旋转的 z 深度轴似乎是成一定角度的如何旋转图像以便在查看图像的一个切片时我会看到该切片从中心旋转 45 度下面是我的代
从外部文件加载配置的最佳 PySpark 实践是什么

我想初始化配置一次然后在我的 PySpark 项目的许多模块中使用它我看到有两种方法可以做到这一点将其加载到入口点并作为参数传递给每个函数 main py with open sys argv 1 as f config json l

从外部文件加载配置的最佳 PySpark 实践是什么

从外部文件加载配置的最佳 PySpark 实践是什么 的相关文章

随机推荐

热门标签

从外部文件加载配置的最佳 PySpark 实践是什么的相关文章