EMR

KryoSerializer 找不到我的 SparkKryoRegistrator

我在 Amazon emr 5 2 1 上以客户端模式使用 Spark 2 0 2 我使用 Kryo 序列化并在我们自己的 KryoRegistrator 中注册我们的类 val sparkConf new SparkConf set sp

apachespark EMR kryo

将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp

Hadoop amazons3 EMR amazonemr

pyspark/EMR 中大型 DataFrame 上的collect() 或 toPandas()

我有一个由一台机器 c3 8xlarge 组成的 EMR 集群在阅读了一些资源后我了解到我必须允许相当数量的堆外内存因为我使用的是 pyspark 所以我配置了集群如下执行人一名火花执行器内存 6g Spark executo

pandas apachespark PySpark EMR amazonemr

在 EMR 中引导期间获取“现有锁 /var/run/yum.pid：另一个副本正在作为 pid 运行...”

我需要在我的 EMR 集群 AMI 3 1 1 中安装 python3 作为引导步骤的一部分所以我添加了以下命令 sudo yum install y python3 但每次我都会收到以下错误 Existing lock var run

yum EMR amazonemr

如何防止 EMR Spark 步骤重试？

我有一个 AWS EMR 集群 emr 4 2 0 Spark 1 5 2 我在其中从 aws cli 提交步骤我的问题是如果 Spark 应用程序失败则 YARN 会尝试再次运行该应用程序在相同的 EMR 步骤下我怎样才能防止这

amazonwebservices apachespark hadoopyarn EMR

如何在emr上重启hadoop集群

我在 Amazon Elastic MapReduce 上安装了 hadoop 每当我尝试重新启动集群时都会收到以下错误 stop all sh no jobtracker to stop The authenticity of host

Hadoop EMR

如何在 Amazon EMR 上重新启动 HDFS

我对 Amazon EMR 集群上的 HDFS 设置进行了一些更改我想重新启动名称节点和数据节点以使更改生效我无法在名称节点主节点和数据节点上找到任何启动和停止脚本来执行此操作应该怎样重启集群呢在 EMR4 上在主控主机上运

Hadoop HDFS EMR

EMR 与 AWS 上的 EC2/Hadoop

我知道 EC2 比 EMR 更灵活但工作量更大然而就成本而言如果使用 EC2 可能需要将 EBS 卷附加到 EC2 实例而 AWS 只是从 S3 流入数据因此在 AWS 计算器上计算数字即使对于 EMR 也必须为 EC2 付费

Hadoop amazonwebservices amazonec2 EMR

启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器

我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本为此我使用一个 json 对象如下所示 Classification zeppelin env Properties Configurations Classi

apachespark EMR amazonemr apachezeppelin

Spark - AWS EMR 集群首选哪种实例类型？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在 EMR Spark 集群上运行一些机器学习算法我很好奇使用哪种实例才能获得最佳的成本性能增

amazonec2 apachespark EMR

hadoop 流：在 EMR 上导入模块

上一个问题已解决 https stackoverflow com questions 6811549 how can i include a python package with hadoop streaming job 6811775

python Hadoop EMR

终止 aws 中的 Spark 步骤

我想在 EMR Spark 集群上设置一系列 Spark 步骤并在当前步骤花费太长时间时终止当前步骤但是当我 ssh 进入主节点并运行 hadoop jobs list 时主节点似乎认为没有正在运行的作业我不想终止集群因为这样做

Hadoop amazonwebservices apachespark EMR

在 EMR Spark 应用程序中加载 props 文件

我正在尝试使用以下方法在我的 Spark 应用程序中加载自定义属性 command runner jar spark submit deploy mode cluster properties file s3 spark config te

apachespark EMR amazondatapipeline

pyspark/EMR 中大型 DataFrame 上的collect() 或 toPandas()

我有一个由一台机器 c3 8xlarge 组成的 EMR 集群在阅读了一些资源后我了解到我必须允许相当数量的堆外内存因为我使用的是 pyspark 因此我已按如下方式配置集群执行人一名火花执行器内存 6g Spark exec

pandas apachespark PySpark EMR amazonemr

hive 版本 0.13.1 中的性能问题

I use AWS EMR http docs aws amazon com ElasticMapReduce latest DeveloperGuide UsingEMR SupportedHiveVersions html运行我的 Hi

Hadoop amazonwebservices hive EMR amazonami

安排 Amazon Elastic MapReduce 作业的工具/方法

我使用 EMR 创建新实例并处理作业然后关闭实例我的要求是定期安排工作一种简单的实施方式是使用石英来触发 EMR 作业但从长远来看我对使用开箱即用的 MapReduce 调度解决方案感兴趣我的问题是 EMR 或 AWS SDK

MapReduce hadoopstreaming elasticmapreduce EMR

如何在AWS EMR上重新启动yarn

我正在使用 Hadoop 2 6 0 emr 4 2 0图像我做了一些改变yarn site xml并希望重新启动纱线以使更改生效有一个命令可以用来执行此操作吗编辑 2017 年 10 月 26 日 AWS 官方已在此处发布了有关如何

Hadoop hadoopyarn EMR

Spark 2.0中DataFrame的GroupBy操作需要花费大量时间

在我的一项 Spark 作业 EMR 5 0 0 上的 2 0 中我有大约 5GB 的数据与 30 行交叉连接数据大小几 MB 我还需要按它分组我注意到我花费了大量时间使用 1 个 m3 xlarge 主节点和 6 个 m3 2xl

apachespark apachesparksql EMR amazonemr

将 1 亿个文件写入 s3

我的主要目标是根据每条记录的 id 将记录拆分为文件目前有超过 150 亿条记录而且肯定还会增加我需要一个使用 Amazon EMR 的可扩展解决方案我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作输入文件采用 csv

Hadoop amazons3 elasticmapreduce amazonemr EMR

Spark 1.6 在 EMR 上写入 S3，因为 Parquet 挂起并失败

我正在创建一个 uber jar Spark 应用程序将其提交到 EMR 4 3 集群我正在配置 4 个 r3 xlarge 实例其中一个作为主实例另外三个作为核心我从控制台预安装了 hadoop 2 7 1 ganglia 3

amazons3 apachespark garbagecollection EMR parquet