Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
KryoSerializer 找不到我的 SparkKryoRegistrator
我在 Amazon emr 5 2 1 上以客户端模式使用 Spark 2 0 2 我使用 Kryo 序列化并在我们自己的 KryoRegistrator 中注册我们的类 val sparkConf new SparkConf set sp
apachespark
EMR
kryo
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径
我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶 我认识到我可以直接在 Spark 中写入 S3 但原则上 之后执行它也应该很简单 到目前为止 我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hadoop
amazons3
EMR
amazonemr
pyspark/EMR 中大型 DataFrame 上的collect() 或 toPandas()
我有一个由一台机器 c3 8xlarge 组成的 EMR 集群 在阅读了一些资源后 我了解到我必须允许相当数量的堆外内存 因为我使用的是 pyspark 所以我配置了集群如下 执行人一名 火花 执行器 内存 6g Spark executo
pandas
apachespark
PySpark
EMR
amazonemr
在 EMR 中引导期间获取“现有锁 /var/run/yum.pid:另一个副本正在作为 pid 运行...”
我需要在我的 EMR 集群 AMI 3 1 1 中安装 python3 作为引导步骤的一部分 所以我添加了以下命令 sudo yum install y python3 但每次我都会收到以下错误 Existing lock var run
yum
EMR
amazonemr
如何防止 EMR Spark 步骤重试?
我有一个 AWS EMR 集群 emr 4 2 0 Spark 1 5 2 我在其中从 aws cli 提交步骤 我的问题是 如果 Spark 应用程序失败 则 YARN 会尝试再次运行该应用程序 在相同的 EMR 步骤下 我怎样才能防止这
amazonwebservices
apachespark
hadoopyarn
EMR
如何在emr上重启hadoop集群
我在 Amazon Elastic MapReduce 上安装了 hadoop 每当我尝试重新启动集群时 都会收到以下错误 stop all sh no jobtracker to stop The authenticity of host
Hadoop
EMR
如何在 Amazon EMR 上重新启动 HDFS
我对 Amazon EMR 集群上的 HDFS 设置进行了一些更改 我想重新启动名称节点和数据节点以使更改生效 我无法在名称节点 主节点 和数据节点上找到任何启 动和停止脚本来执行此操作 应该怎样重启集群呢 在 EMR4 上 在主控主机上运
Hadoop
HDFS
EMR
EMR 与 AWS 上的 EC2/Hadoop
我知道 EC2 比 EMR 更灵活 但工作量更大 然而就成本而言 如果使用 EC2 可能需要将 EBS 卷附加到 EC2 实例 而 AWS 只是从 S3 流入数据 因此 在 AWS 计算器上计算数字 即使对于 EMR 也必须为 EC2 付费
Hadoop
amazonwebservices
amazonec2
EMR
启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器
我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本 为此 我使用一个 json 对象 如下所示 Classification zeppelin env Properties Configurations Classi
apachespark
EMR
amazonemr
apachezeppelin
Spark - AWS EMR 集群首选哪种实例类型? [关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在 EMR Spark 集群上运行一些机器学习算法 我很好奇使用哪种实例才能获得最佳的成本 性能增
amazonec2
apachespark
EMR
hadoop 流:在 EMR 上导入模块
上一个问题已解决 https stackoverflow com questions 6811549 how can i include a python package with hadoop streaming job 6811775
python
Hadoop
EMR
终止 aws 中的 Spark 步骤
我想在 EMR Spark 集群上设置一系列 Spark 步骤 并在当前步骤花费太长时间时终止当前步骤 但是 当我 ssh 进入主节点并运行 hadoop jobs list 时 主节点似乎认为没有正在运行的作业 我不想终止集群 因为这样做
Hadoop
amazonwebservices
apachespark
EMR
在 EMR Spark 应用程序中加载 props 文件
我正在尝试使用以下方法在我的 Spark 应用程序中加载自定义属性 command runner jar spark submit deploy mode cluster properties file s3 spark config te
apachespark
EMR
amazondatapipeline
pyspark/EMR 中大型 DataFrame 上的collect() 或 toPandas()
我有一个由一台机器 c3 8xlarge 组成的 EMR 集群 在阅读了一些资源后 我了解到我必须允许相当数量的堆外内存 因为我使用的是 pyspark 因此我已按如下方式配置集群 执行人一名 火花 执行器 内存 6g Spark exec
pandas
apachespark
PySpark
EMR
amazonemr
hive 版本 0.13.1 中的性能问题
I use AWS EMR http docs aws amazon com ElasticMapReduce latest DeveloperGuide UsingEMR SupportedHiveVersions html运行我的 Hi
Hadoop
amazonwebservices
hive
EMR
amazonami
安排 Amazon Elastic MapReduce 作业的工具/方法
我使用 EMR 创建新实例并处理作业 然后关闭实例 我的要求是定期安排工作 一种简单的实施方式是使用石英来触发 EMR 作业 但从长远来看 我对使用开箱即用的 MapReduce 调度解决方案感兴趣 我的问题是 EMR 或 AWS SDK
MapReduce
hadoopstreaming
elasticmapreduce
EMR
如何在AWS EMR上重新启动yarn
我正在使用 Hadoop 2 6 0 emr 4 2 0图像 我做了一些改变yarn site xml并希望重新启动纱线以使更改生效 有一个命令可以用来执行此操作吗 编辑 2017 年 10 月 26 日 AWS 官方已在此处发布了有关如何
Hadoop
hadoopyarn
EMR
Spark 2.0中DataFrame的GroupBy操作需要花费大量时间
在我的一项 Spark 作业 EMR 5 0 0 上的 2 0 中 我有大约 5GB 的数据与 30 行交叉连接 数据大小几 MB 我还需要按它分组 我注意到我花费了大量时间 使用 1 个 m3 xlarge 主节点和 6 个 m3 2xl
apachespark
apachesparksql
EMR
amazonemr
将 1 亿个文件写入 s3
我的主要目标是根据每条记录的 id 将记录拆分为文件 目前有超过 150 亿条记录 而且肯定还会增加 我需要一个使用 Amazon EMR 的可扩展解决方案 我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作 输入文件采用 csv
Hadoop
amazons3
elasticmapreduce
amazonemr
EMR
Spark 1.6 在 EMR 上写入 S3,因为 Parquet 挂起并失败
我正在创建一个 uber jar Spark 应用程序 将其提交到 EMR 4 3 集群 我正在配置 4 个 r3 xlarge 实例 其中一个作为主实例 另外三个作为核心 我从控制台预安装了 hadoop 2 7 1 ganglia 3
amazons3
apachespark
garbagecollection
EMR
parquet
1
2
»