当有更多可用机器时，Spark 仅使用一台工作机器

2024-01-25

我正在尝试通过 Spark 并行化机器学习预测任务。我之前已经在其他任务中成功使用过 Spark 多次，并且之前没有遇到过并行化问题。

在这个特定任务中，我的集群有 4 个工作线程。我在具有 4 个分区的 RDD 上调用 mapPartitions。映射函数从磁盘加载模型（引导脚本分发执行此操作所需的所有内容；我已经验证它存在于每台从机上）并对 RDD 分区中的数据点执行预测。

代码运行，但仅使用一个执行器。其他执行程序的日志显示“已调用关闭挂钩”。在代码的不同运行中，它使用不同的机器，但一次仅使用一台机器。

如何让 Spark 同时使用多台机器？

我通过 Zeppelin 笔记本在 Amazon EMR 上使用 PySpark。代码片段如下。

%spark.pyspark

sc.addPyFile("/home/hadoop/MyClassifier.py")
sc.addPyFile("/home/hadoop/ModelLoader.py")

from ModelLoader import ModelLoader
from MyClassifier import MyClassifier

def load_models():
    models_path = '/home/hadoop/models'
    model_loader = ModelLoader(models_path)

    models = model_loader.load_models()
    return models

def process_file(file_contents, models):
    filename = file_contents[0]
    filetext = file_contents[1]
    pred = MyClassifier.predict(filetext, models)
    return (filename, pred)

def process_partition(file_list):
    models = load_models()
    for file_contents in file_list:
        pred = process_file(file_contents, models)
        yield pred


all_contents = sc.wholeTextFiles("s3://some-path", 4)
processed_pages = all_contents.mapPartitions(process_partition)
processedDF = processed_pages.toDF(["filename", "pred"])
processedDF.write.json("s3://some-other-path", mode='overwrite')

正如预期的那样，有四个任务，但它们都在同一个执行器上运行！

我正在运行集群，并且可以提供资源管理器中可用的日志。我只是还不知道该去哪里寻找。

这里要提两点（但不确定他们是否能解决您的问题）：

wholeTextFiles uses WholeTextFileInputFormat这延伸了CombineFileInputFormat，并且因为CombineFileInputFormat，它会尝试将一组小文件合并到一个分区中。因此，如果您将分区数设置为 2，您“可能”会得到两个分区，但这并不能保证，这取决于您正在读取的文件的大小。
的输出wholeTextFiles是一个 RDD，其中每条记录都包含整个文件（并且每个记录/文件无法拆分，因此它将最终位于单个分区/工作线程中）。因此，如果您仅读取一个文件，则尽管您在示例中将分区设置为 4，但最终您仍会将整个文件存储在一个分区中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

当有更多可用机器时，Spark 仅使用一台工作机器的相关文章

从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

PHP脚本自动创建文件结构表示[重复]

这个问题在这里已经有答案了可能的重复 PHP 遍历文件夹并显示 HTML 内容 https stackoverflow com questions 2769175 php iterate through folders and displ
getActivity() 找不到符号 symbol ：方法 getActivity()

我需要有关我的彩信应用程序的此文件的帮助 getActivity 导致构建错误 Error cannot find symbol method getActivity 到目前为止我已经尝试了很多方法来使这项工作正常进行例如extends
无法使用装饰器覆盖类对象的 str 结果

请参阅下面我的回答发布问题后我意识到发生了什么事我尝试使用装饰器覆盖类的字符串表示形式不起作用我一定错过了一些东西但不知道它是什么 from functools import wraps def str dec obj wraps
水晶报告 .net 4 的问题

我之前在 net 3 5 中使用过 Crystal Reports 但自从升级到 Net 4 0 后我遇到了以下错误错误 5 找不到类型或命名空间名称 CrystalDecisions 是否缺少 using 指令或程序集引用 C Use
Robocopy 命令行 - 带空格的文件

我正在尝试运行以下命令 robocopy exe eisdevl nas gatech edu coldfusion devl cfapps cfeis mybeap eisdevl nas gatech edu coldfusion te
在Java中，如何将十六进制字符串转换为byte[]？ [复制]

这个问题在这里已经有答案了我在 Java 中使用以下函数将加密字符串转换为十六进制格式 public static String toHex byte buf StringBuffer strbuf new StringBuffer bu
在 ggplot 和 stat_function() 中叠加对数正态密度

我尝试通过叠加一个函数stat function in ggplot但无法弄清楚我的错误这个例子产生了一个漂亮的图 data lt data frame x rt 10000 df 7 ggplot data data aes x x g
当窗口移动到屏幕左上角时如何禁用窗口最大化？

我有一个设置了ResizeMode CanResizeWithGrip 和AllowTransparency true 的窗口它工作正常直到它移动到屏幕顶部然后自动最大化如何阻止它最大化以便我可以将屏幕显示为位于屏幕顶部的窗口 T
如何在测试中手动模拟 Svg？

我在我的应用程序中使用存根文件来模拟图像这对我来说 99 的时间都有效但是我有一个组件可以根据输入渲染不同的图像因此我希望能够在单元测试中检查输入是否创建了正确的输出基本上我想做的是如果用户输入狮子我的组件将显示狮子的图片
使用外部 jar“不是托管类型”的 Spring 启动

我有一个正在拉入公共罐子的弹簧应用程序该 jar 包含带注释的 DTO 类运行 mvn clean build 命令成功运行并构建 jar 一旦我运行 java jar target MyApp 1 0 0 BUILD SNAPSHOT
将 mime 多部分主体部分写入输出流时出错

我有执行异步文件上传的代码该代码在我的开发虚拟机上运行良好但在将其部署到客户端系统后我不断收到此错误将 mime 多部分主体部分写入输出流时出错我知道这是抛出错误的行但我似乎无法弄清楚为什么 Read the form data
可用的viewcell按钮

我有 tableview 我在其中对 tableviewcell 进行了子类化单元格中有一个水平滚动视图我向滚动视图添加动态按钮我的要求 1 当我第一次点击 row0 上的按钮时我需要为点击的按钮设置不同的 BG 颜色并在数组中添
运行“app”时出错：Android studio 3.1 中出现未知错误

我已经将我的 android studio 更新到了新的稳定版3 1版构建项目后无法运行如果有人遇到同样的问题或找到任何解决方案请告诉我只需前往运行编辑配置并向下滚动到窗口底部在这里您会看到一个选项发射前首先删除小窗口
如何使用 GNU Parallel 编写多核排序

GNU 并行 http www gnu org software parallel GNU并行是一个shell工具用于使用一台或多台计算机并行执行作业例如如果我想编写一个多核版本wc我可以做 cat XXX parallel bloc
如何使用 awk 每 n 行插入一个空行？

我有一个像这样的输入文件 line 1 line 2 line 3 line 4 line 5 line 6 我想使用 awk 每隔几行插入一个空行例如每两个 line 1 line 2 line 3 line 4 line 5 lin
Mac 上的 Mercurial“未提供用户名”错误

我刚刚在 OSX Mountain Lion Max 10 8 上安装了 Mercurial 在第一次提交时出现错误 abort no username supplied see hg help config 我看到了很多答案这些答案表明
make找不到tools.jar

运行Ubuntu 12 04 我已经添加到路径 home jeffrey jdk1 6 0 43 lib 我正在尝试使用 Make 从源代码构建 make j16 但遇到错误 build core config mk 268 Error c
来自 pandas Dataframe 的具有不确定性的 LaTeX 表

我目前正在编写一份报告其中包含用 python 计算并存储在 pandas DataFrame 中的许多值和不确定性这些值必须放入报告中包括错误目前我唯一的方法是手动将值与错误合并其中一个示例如下所示 begin tabular
如何MVC 5下拉（多选）框

我在使用这个下拉框时遇到了问题似乎无法正确处理代码如下查看 Index cshtml using EvaSimulator Models Model EvaSimulator Models ModelVariables ViewBag
当有更多可用机器时，Spark 仅使用一台工作机器

我正在尝试通过 Spark 并行化机器学习预测任务我之前已经在其他任务中成功使用过 Spark 多次并且之前没有遇到过并行化问题在这个特定任务中我的集群有 4 个工作线程我在具有 4 个分区的 RDD 上调用 mapPartiti

当有更多可用机器时，Spark 仅使用一台工作机器

当有更多可用机器时，Spark 仅使用一台工作机器 的相关文章

随机推荐

热门标签

当有更多可用机器时，Spark 仅使用一台工作机器的相关文章