将流步骤添加到在 AWS EMR 5.0 上运行的 boto3 中的 MR 作业

2023-11-21

我正在尝试将用 python 编写的几个 MR 作业从 AWS EMR 2.4 迁移到 AWS EMR 5.0。到目前为止，我使用的是 boto 2.4，但它不支持 EMR 5.0，所以我正在尝试转向 boto3。早些时候，在使用 boto 2.4 时，我使用了StreamingStep模块来指定输入位置和输出位置，以及我的映射器和减速器源文件的位置。使用这个模块，我实际上不必创建或上传任何 jar 来运行我的作业。但是，我在 boto3 文档中的任何地方都找不到该模块的等效项。如何将 boto3 中的流步骤添加到我的 MR 作业中，这样我就不必上传 jar 文件来运行它？

不幸的是，boto3 和 EMR API 的文档很少。字数统计示例至少如下所示：

import boto3

emr = boto3.client('emr')

resp = emr.run_job_flow(
    Name='myjob',
    ReleaseLabel='emr-5.0.0',
    Instances={
        'InstanceGroups': [
            {'Name': 'master',
             'InstanceRole': 'MASTER',
             'InstanceType': 'c1.medium',
             'InstanceCount': 1,
             'Configurations': [
                 {'Classification': 'yarn-site',
                  'Properties': {'yarn.nodemanager.vmem-check-enabled': 'false'}}]},
            {'Name': 'core',
             'InstanceRole': 'CORE',
             'InstanceType': 'c1.medium',
             'InstanceCount': 1,
             'Configurations': [
                 {'Classification': 'yarn-site',
                  'Properties': {'yarn.nodemanager.vmem-check-enabled': 'false'}}]},
        ]},
    Steps=[
        {'Name': 'My word count example',
         'HadoopJarStep': {
             'Jar': 'command-runner.jar',
             'Args': [
                 'hadoop-streaming',
                 '-files', 's3://mybucket/wordSplitter.py#wordSplitter.py',
                 '-mapper', 'python2.7 wordSplitter.py',
                 '-input', 's3://mybucket/input/',
                 '-output', 's3://mybucket/output/',
                 '-reducer', 'aggregate']}
         }
    ],
    JobFlowRole='EMR_EC2_DefaultRole',
    ServiceRole='EMR_DefaultRole',
)

我不记得需要使用 boto 执行此操作，但我在不禁用的情况下正确运行简单的流作业时遇到了问题vmem-check-enabled.

另外，如果您的脚本位于 S3 上的某个位置，请使用以下命令下载它-files（附加#filename参数使下载的文件可用filename在集群中）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将流步骤添加到在 AWS EMR 5.0 上运行的 boto3 中的 MR 作业的相关文章

通过 Python 与 Windows 控制台应用程序交互

我在 Windows 上使用 python 2 5 我希望通过 Popen 与控制台进程交互我目前有一小段代码 p Popen console app exe stdin PIPE stdout PIPE issue command 1
api网关CORS设置

我正在尝试在部署脚本中使用 aws cli 从命令行设置 aws CORS 我使用以下 perl to shell 命令创建了 POST 资源我正在尝试将集成响应设置为就像启用核心一样 aws apigateway put method
刷新访问令牌时出现“invalid_grant”错误的情况？

最近我一直在为这个问题揪心一些背景使用oauth2客户端 https code google com p google api python client 库来管理用户的令牌这些令牌用于定期并发执行各种后台任务每次要为用户运行其中一
使用 Flask SQLAlchemy 进行表（模型）继承

我遵循了这个建议question https stackoverflow com questions 1337095 sqlalchemy inheritance但我仍然收到此错误 sqlalchemy exc NoForeignKeysE
运行源代码中包含 Unicode 字符的 Python 2.7 代码

我想运行一个在源代码中包含 unicode utf 8 字符的 Python 源文件我知道这可以通过添加评论来完成 coding utf 8 在一开始的时候但是我希望不使用这种方法来做到这一点我能想到的一种方法是以转义形式编写 un
代理阻止网络套接字？如何绕行

我有一个用 Python 编写的正在运行的 websocket 服务器来自https github com opiate SimpleWebSocketServer https github com opiate SimpleWebSoc
在 C# 中实例化 python 类

我已经用 python 编写了一个类我想通过 IronPython 将其包装到 net 程序集中并在 C 应用程序中实例化我已将该类迁移到 IronPython 创建了一个库程序集并引用了它现在我如何真正获得该类的实例该类看起来
Python：如何重构循环导入

我有件事可以帮你做engine setState
如何通过 Python socket.send() 发送字符串以外的任何内容

我对 Python 编程非常陌生但出于必要我必须快速地将一些东西组合在一起我正在尝试通过 UDP 发送一些数据除了当我执行 socket send 时我必须以字符串形式输入数据之外一切都正常这是我的程序这样你就可以看到我在做
如何通过facebook-sdk python api获取用户帖子？

我使用 facebook jssdk 授权我的应用程序读取用户个人资料和用户帖子 FB login function response scope user status user likes user photos user videos
检查对象数组中的多个属性匹配

我有一个对象数组它们都是相同的对象类型并且它们有多个属性有没有办法返回一个较小的对象数组其中所有属性都与测试用例字符串匹配无论该属性类型是什么使用列表理解all http docs python org 3 library f
Selenium 网页抓取与动态内容和隐藏数据表上的美丽汤

真的需要这个社区的帮助我正在使用 Selenium 和 Beautiful Soup 对 Python 中的动态内容进行网页抓取问题是定价数据表无法解析为 Python 即使使用以下代码 html browser execute scr
Python将csv数据导出到文件中

我有以下运行良好的代码但我无法修剪数据并将其存储在数据文件中 import nltk tweets love this car this view amazing not looking forward the concert def g
如何从c++调用python

我是Python新手我尝试像这样从 C 调用 python 脚本在 Raspberry Pi 中 std string pythonCommand python Callee py a b int res system pythonCo
pandas apply：函数名是否带引号的区别

简单数据框定义示例 df pd DataFrame A 2 4 1 B 8 4 1 C 6 2 7 df A B C 0 2 8 6 1 4 4 2 2 1 1 7 尝试理解以下块中函数参数调用的差异 df apply sum df app
写入 UDP 套接字会被阻塞吗？

如果是的话在什么条件下或者换句话说在twisted 中运行此代码是否安全 class StatsdClient AbstractStatsdClient def init self host port super StatsdCli
从 subprocess.Popen 获取整个输出

我通过调用 subprocess Popen 得到了一个有点奇怪的结果我怀疑这与我对 Python 的陌生有很大关系 args cscript USERPROFILE tools jslint js USERPROFILE tools j
通过子类化 `io.TextIOWrapper` 来子类化文件 - 但它的构造函数有什么签名？

我正在尝试子类化io TextIOWrapper下列的这个帖子 https stackoverflow com a 23796737 974555 虽然我的目标不同以此开始注意动机 https stackoverflow com a
在没有numpy的情况下在python中分配变量NaN

大多数语言都有一个 NaN 常量您可以使用它为变量分配值 NaN python 可以在不使用 numpy 的情况下做到这一点吗是的使用math nan https docs python org 3 library math html
python IDLE shell 似乎无法正确处理一些转义

例如 b 退格键打印为四元在下面的示例中显示为但是 n 换行是可以的 gt gt gt print abc bd abc d gt gt gt print abc nd abc d 我在 Vista pro python 2 7 下运行

随机推荐

图像在模拟器中显示，但在 iPhone 设备上不显示

因此当我从设备运行应用程序时图片就会显示出来一切都运行良好然而当我转到该设备时我运行的 38 张图片中大约有 10 张没有显示我正在从 sqlite 数据库中提取图像的名称并且我已经检查过名称大小写和所有内容都是正确的
在 Django 中实现“开放时间”的任何现有解决方案

我正在为一位希望能够更改营业时间的客户制作一个网站对于他的每一个不同的商店 Django 是否有针对此类问题的现有解决方案你是什么意思看起来很简单根据您工作日的订单进行调整如果您愿意可以添加验证但人们应该足够聪明不需要对这
Django 创建自定义模型字段

我正在尝试在 Django 中创建一个自定义字段它将采用十进制货币值例如 1 56 并将其作为整数例如 156 保存在数据库中以存储货币值这就是我到目前为止所拥有的我已经设置了固定值来测试 class CurrencyField
为什么考虑_all_requests_local 因 rspec 配置而失败

rspec rails 2 7 0 导轨 3 0 10 邮政 Rails 3 1 错误捕获对我来说无关紧要 Code class ApplicationController lt ActionController Base unless R
Chrome 检查元素的奇怪问题

When I load my page one of the images is higher than it is supposed to be When I right click Inspect element anywhere on
DatePicker 回发后消失

我有一个与 jquery DatePicker 关联的 asp TextBox 此输入有一个更新文字控件的 onTextChangedEvent 所有这些代码都位于 UpdatePanel 内因此文字控件会更改但页面不会刷新我面临的问
最大样本

如果我想对数字进行采样来创建向量我会这样做 set seed 123 x lt sample 1 100 200 replace TRUE sum x 1 10228 如果我想采样 20 个总和为 100 的随机数然后采样 30 个数字
Erlang 节点无法看到彼此

我是 Erlang 新手尝试在我的笔记本电脑上设置两个节点在一个终端中我输入 eli elimayost erlang apps gt erl sname foo setcookie secret 在第二个终端中 eli elimayo
由 gcc 检查的 printf() 包装参数

当Cprintf 它的家族是由gcc and Wall在命令行上使用时编译器会根据正在使用的格式字符串警告错误放置的参数例如下面的代码会收到一条错误消息指出格式指定了 3 个参数但实际上您只传递了两个 printf d d d 1
LLDB 在启动时似乎没有读取我的 .lldbinit 文件

我有一个带有单个别名的文件 lldbinit command alias pi print int 但是当我从 Xcode 运行我的应用程序时别名不起作用但是如果我手动输入别名则别名确实有效 lldb pi 6 error pi i
在嵌套字典 python 中搜索值

搜索一个值并获取父字典名称键 Dictionary dict1 part1 wbxml application vnd wap wbxml rl application resource lists xml part2 wsdl appl
Jenkins Kubernetes 插件无法配置 jnlp-slave pod

我在 Ubuntu 17 04 VM 上运行 Kubernetes 1 10 0 Docker 17 03 2 ce 和 Jenkins 2 107 1 并在 Jenkins 中安装了 Kubernetes Plugin 1 5 我有另外
load() 函数如何允许用户提供回调？

在 javascript 中库框架非常流行让我们定义用于数据后处理的回调函数 eg load 5 function element alert element name 我想知道 load 函数如何能够让用户提供回调有这方面好的教程吗
如何在 jupyter 笔记本上单独冻结单元及其输出

使用 Jupyter 笔记本时执行单元的输出包括错误消息可能很有用所以我想freeze细胞本身及其输出或者换句话说失活单元以保持输出这可行吗这会冻结单元格但不会冻结输出在编辑器中打开笔记本查找您要锁定的单元格将以下行
从字符向量创建函数列表

提前致谢如果这个问题之前已经得到回答我很抱歉我已经进行了相当广泛的研究我有一个数据集其中包含一行串联信息特别是名称颜色代码一些函数表达式例如一个值可能是成本 FF0033 log x 6 我拥有提取信息的所有代码最
如何反转 Django 模板中的 for 循环，然后对结果进行切片

在 Django 模板中我迭代一组照片并一张一张地显示它们具体来说现在我只有一张照片集包含 6 个物体我像这样显示这 6 个对象 for pic in picstream photo set all reversed img s
如何在具有动态键值对的javascript中解析json？ [复制]

这个问题在这里已经有答案了我想在 JavaScript 中解析 JSON 字符串响应是这样的 var response 1 10 2 10 如何从这个 json 中获取每个键和值我正在这样做 var obj parseJSON res
在 php 中取消设置变量

我刚刚通过 php 手册阅读了有关 unset 变量的内容 php手册说 unset 销毁指定的变量这个 def 看起来很完美直到我遇到静态变量如果在函数内部 unset 静态变量则 unset 仅在函数其余部分的上下文中销毁该变量
我可以使用 link_to 链接图像和文本吗

好吧我正在使用 font awesome rails gem 我已经习惯了 Rails 之外的很棒的字体但我想它在 Rails 社区中并不那么受欢迎安装后它会使用以下格式创建图标 i class nameoftheicon i 我想
将流步骤添加到在 AWS EMR 5.0 上运行的 boto3 中的 MR 作业

我正在尝试将用 python 编写的几个 MR 作业从 AWS EMR 2 4 迁移到 AWS EMR 5 0 到目前为止我使用的是 boto 2 4 但它不支持 EMR 5 0 所以我正在尝试转向 boto3 早些时候在使用 boto

将流步骤添加到在 AWS EMR 5.0 上运行的 boto3 中的 MR 作业

将流步骤添加到在 AWS EMR 5.0 上运行的 boto3 中的 MR 作业 的相关文章

随机推荐

热门标签

将流步骤添加到在 AWS EMR 5.0 上运行的 boto3 中的 MR 作业的相关文章