Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？

2024-03-06

我对 Apache Flink 比较陌生，我正在尝试创建一个简单的项目，将文件生成到 AWS S3 存储桶。根据文档，我似乎需要安装 Hadoop 才能执行此操作。

如何设置本地环境来测试此功能？我在本地安装了 Apache Flink 和 Hadoop。我已对 Hadoop 的 core-site.xml 配置添加了必要的更改，并将 HADOOP_CONF 路径添加到了 flink.yaml 配置中。当我尝试通过 Flink UI 在本地提交作业时，我总是收到错误

2016-12-29 16:03:49,861 INFO  org.apache.flink.util.NetUtils                                - Unable to allocate on port 6123, due to error: Address already in use
2016-12-29 16:03:49,862 ERROR org.apache.flink.runtime.jobmanager.JobManager                - Failed to run JobManager.
java.lang.RuntimeException: Unable to do further retries starting the actor system
    at org.apache.flink.runtime.jobmanager.JobManager$.retryOnBindException(JobManager.scala:2203)
    at org.apache.flink.runtime.jobmanager.JobManager$.runJobManager(JobManager.scala:2143)
    at org.apache.flink.runtime.jobmanager.JobManager$.main(JobManager.scala:2040)
    at org.apache.flink.runtime.jobmanager.JobManager.main(JobManager.scala)

我假设我在环境设置方面遗漏了一些东西。可以在本地执行此操作吗？任何帮助，将不胜感激。

虽然您需要 Hadoop 库，但您不必安装 Hadoop 即可在本地运行并写入 S3。我只是碰巧尝试编写基于 Avro 模式的 Parquet 输出并生成 SpecificRecord 到 S3。我正在通过 SBT 和 Intellij Idea 在本地运行以下代码的版本。所需零件：

1) 使用以下文件指定所需的 Hadoop 属性（注意：不建议定义 AWS 访问密钥/秘密密钥。最好在具有适当 IAM 角色以读取/写入 S3 存储桶的 EC2 实例上运行。但需要本地进行测试）

<configuration>
    <property>
        <name>fs.s3.impl</name>
        <value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
    </property>

    <!-- Comma separated list of local directories used to buffer
         large results prior to transmitting them to S3. -->
    <property>
        <name>fs.s3a.buffer.dir</name>
        <value>/tmp</value>
    </property>

    <!-- set your AWS ID using key defined in org.apache.hadoop.fs.s3a.Constants -->
    <property>
        <name>fs.s3a.access.key</name>
        <value>YOUR_ACCESS_KEY</value>
    </property>

    <!-- set your AWS access key -->
    <property>
        <name>fs.s3a.secret.key</name>
        <value>YOUR_SECRET_KEY</value>
    </property>
</configuration>

2）进口：导入 com.uebercomputing.eventrecord.EventOnlyRecord

import org.apache.flink.api.scala.hadoop.mapreduce.HadoopOutputFormat
import org.apache.flink.api.scala.{ExecutionEnvironment, _}

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat
import org.apache.hadoop.conf.{Configuration => HadoopConfiguration}
import org.apache.hadoop.fs.Path
import org.apache.hadoop.mapreduce.Job

import org.apache.parquet.avro.AvroParquetOutputFormat

3）Flink代码使用具有上述配置的HadoopOutputFormat：

    val events: DataSet[(Void, EventOnlyRecord)] = ...

    val hadoopConfig = getHadoopConfiguration(hadoopConfigFile)

    val outputFormat = new AvroParquetOutputFormat[EventOnlyRecord]
    val outputJob = Job.getInstance

    //Note: AvroParquetOutputFormat extends FileOutputFormat[Void,T]
    //so key is Void, value of type T - EventOnlyRecord in this case
    val hadoopOutputFormat = new HadoopOutputFormat[Void, EventOnlyRecord](
      outputFormat,
      outputJob
    )

    val outputConfig = outputJob.getConfiguration
    outputConfig.addResource(hadoopConfig)
    val outputPath = new Path("s3://<bucket>/<dir-prefix>")
    FileOutputFormat.setOutputPath(outputJob, outputPath)
    AvroParquetOutputFormat.setSchema(outputJob, EventOnlyRecord.getClassSchema)

    events.output(hadoopOutputFormat)

    env.execute

    ...

    def getHadoopConfiguration(hadoodConfigPath: String): HadoopConfiguration = {
      val hadoopConfig = new HadoopConfiguration()
      hadoopConfig.addResource(new Path(hadoodConfigPath))
      hadoopConfig
    }

4）构建依赖项和使用的版本：

    val awsSdkVersion = "1.7.4"
    val hadoopVersion = "2.7.3"
    val flinkVersion = "1.1.4"

    val flinkDependencies = Seq(
      ("org.apache.flink" %% "flink-scala" % flinkVersion),
      ("org.apache.flink" %% "flink-hadoop-compatibility" % flinkVersion)
    )

    val providedFlinkDependencies = flinkDependencies.map(_ % "provided")

    val serializationDependencies = Seq(
      ("org.apache.avro" % "avro" % "1.7.7"),
      ("org.apache.avro" % "avro-mapred" % "1.7.7").classifier("hadoop2"),
      ("org.apache.parquet" % "parquet-avro" % "1.8.1")
    )

    val s3Dependencies = Seq(
      ("com.amazonaws" % "aws-java-sdk" % awsSdkVersion),
      ("org.apache.hadoop" % "hadoop-aws" % hadoopVersion)
    )

编辑使用 writeAsText 到 S3：

1) 创建一个 Hadoop 配置目录（将其引用为 hadoop-conf-dir），其中包含文件 core-site.xml。

例如：

mkdir /home/<user>/hadoop-config
cd /home/<user>/hadoop-config
vi core-site.xml

#content of core-site.xml 
<configuration>
    <property>
        <name>fs.s3.impl</name>
        <value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
    </property>

    <!-- Comma separated list of local directories used to buffer
         large results prior to transmitting them to S3. -->
    <property>
        <name>fs.s3a.buffer.dir</name>
        <value>/tmp</value>
    </property>

    <!-- set your AWS ID using key defined in org.apache.hadoop.fs.s3a.Constants -->
    <property>
        <name>fs.s3a.access.key</name>
        <value>YOUR_ACCESS_KEY</value>
    </property>

    <!-- set your AWS access key -->
    <property>
        <name>fs.s3a.secret.key</name>
        <value>YOUR_SECRET_KEY</value>
    </property>
</configuration>

2) 创建一个目录（将其引用为 flink-conf-dir），其中包含文件 flink-conf.yaml。

例如：

mkdir /home/<user>/flink-config
cd /home/<user>/flink-config
vi flink-conf.yaml

//content of flink-conf.yaml - continuing earlier example
fs.hdfs.hadoopconf: /home/<user>/hadoop-config

3) 编辑用于运行 S3 Flink 作业的 IntelliJ Run 配置 - 运行 - 编辑配置 - 并添加以下环境变量：

FLINK_CONF_DIR and set it to your flink-conf-dir

Continuing the example above:
FLINK_CONF_DIR=/home/<user>/flink-config

4) 使用该环境变量集运行代码：

events.writeAsText("s3://<bucket>/<prefix-dir>")

env.execute

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？的相关文章

当 S3 上的 ZIP 包更改时如何更新 aws_lambda_function Terraform 资源？

Zip 包不是由 Terraform 上传到 S3 Lambda 由 Terraform aws lambda function 资源配置当我在 S3 上更改 Zip 包并运行时terraform apply命令 Terraform 说没
优化spark sql中分区数据写入S3

我在每个 Spark 作业运行中从 HDFS 读取大约 700 GB 的数据我的工作读取这些数据过滤大约 60 的数据将其分区如下 val toBePublishedSignals hiveCtx sql some query toB
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
Haskell Servant 和流媒体

我正在尝试添加一个功能到我的servant服务器将从 Amazon S3 获取文件并将其流式传输回用户由于文件可能很大我不想将它们下载到本地然后将它们提供给客户端我宁愿将它们直接从 S3 流式传输到客户端 I use Amazonka
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
如何删除/统计 s3 存储桶中的对象？

所以我知道这是一个常见问题但似乎没有任何好的答案我有一个桶里面有大量我不知道有多少文件都在2k一个以内 1 我如何知道我有多少个这些文件没有列出他们我使用过 s3cmd rb aws s3 和 jets3t 的东西我能找到的
CORS 与 Amazon S3 和 Cloudfront

我有一个托管在 Heroku 上的 Rails 应用程序它使用 CloudFront 以及托管在 S3 上的资产它完美地显示了资产尽管需要一些努力我的 Cloudfront 设置 Forward Headers Whitelist
调用 StartQueryExecution 操作时出现错误“请求中包含的安全令牌无效”UnrecognizedClientException

我在使用 athena 凭证在 redash 中设置数据源连接时遇到错误我在 athena 中有有效的访问权限可以运行查询并从 S3 获取日志现在我想将 athena 与 redash 集成所以我收到错误调用 StartQuery
对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
最近的 AWS 区域的客户端 IP 地址

Question 我想从客户端设备将一些数据上传到 AWS 但我想上传到最近的 AWS 区域的 S3 存储桶同样我希望能够从最近的区域下载当然我会在每个区域设置一个存储桶我可以使用一个系统它可以获取客户端的 IP 地址然后确定
Dockerfile 从 amazon s3 或其他需要凭据的源复制文件

我正在尝试构建 Docker 映像并且需要将一些文件从 S3 复制到该映像我正在使用的 Dockerfile 内部 Dockerfile FROM library ubuntu 16 04 ENV LANG C UTF 8 LC ALL
将文件从 CodeCommit 部署到 S3

我想将推送到 CodeCommit 存储库中的某些文件部署到 S3 存储桶中我正在尝试使用存储库上的 Lambda 触发器来执行此操作但是我无法获取提交中更改的文件列表也无法使用 AWS CodeCommit API 从 CodeC
关于 S3 文件传输的权限

我正在使用 S3TransferManager Sample 进行测试我创建了Cognito并设置了IAM并最后更改了constants swift文件我上传没有问题但下载失败错误信息是下载失败错误域 com amazonaws
带有 s3 路径的张量板 logdir

我看到tensorflow支持AWS s3文件系统 https github com tensorflow tensorflow tree master tensorflow core platform s3 https github co
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我

随机推荐

为什么我不能在java中的Frame上画任何东西？

编码就在这里我无法在框架内创建任何矩形或圆形该项目的目标是创建转换 celcius 2 华氏度和华氏度 2 摄氏度所以我想要的是请教我如何在框架旁边绘制矩形或椭圆形 import java awt BorderLayout impo
JESS 引擎的网页不可用

http www jessrules com http www jessrules com and https herzberg ca sandia gov https herzberg ca sandia gov 不要再工作了我如何获得
graphql-codegen 未使用配置文件运行

In my package json文件我有运行的脚本条目graphql codegen但它抱怨说 config参数无效 gt yarn gen yarn run v1 21 1 graphql codegen config codegen
气流动态 dag 创建

有人请告诉我气流中的 DAG 是否只是一个图表如占位符没有任何与其关联的实际数据如参数或者 DAG 是否像一个实例对于固定参数我想要一个系统其中要执行的操作集给定一组参数是固定的但每次运行这组操作时该输入都会不同简单
Angular 2注入在继承中不起作用

最近我们从 Angular 2 0 升级到 2 4 从那时起我们就遇到了继承问题如果我们调用子进程所有依赖项都会变得未定义孩子没有构造函数这意味着它使用父亲的构造函数这是代码 Injectable export class Chi
使用 ajax 下拉菜单中的 onclick 事件更新隐藏的输入值

我正在使用 MachForm 并添加了这个隐藏字段
Spring Boot - 在 application.properties 中获取 Spring-Kafka 客户端 ID 的主机名

我正在使用 Spring Kafka 和 Boot 开发一个项目并且希望在 application properties 中获取属性 spring kafka consumer client Id 的主机名以便可以在服务器端日志中区分我
修改C中的char*字符串

我有这个 char original html content 并想插入一个新的 char mycontent newhtmlinsert 进入之前的原文标签在原始中我的新原版现在是 char neworiginal html c
在 Visual Studio 中调试时访问异常中断过滤器的更好方法？

我厌倦了在 Visual Studio 中使用令人眼花缭乱耗时的异常对话框来打开和关闭异常中断过滤器我寻找 Visual Studio 命令来帮助从命令窗口自动执行此操作但没有成功有没有人有一种技术可以避免调试 gt 异常对
有效检查两个浮点值是否具有不同的符号

我需要查找是否有两个有限浮点值A and B有不同的符号或其中之一为零在许多代码示例中我看到测试如下 if A lt 0 B gt 0 A gt 0 B lt 0 它工作正常但对我来说看起来效率低下因为这里验证了许多条件并且每个条
SQL 查询返回几十年来的最大值

这是使用 MYSQL我的问题如下我有一个棒球数据库在该棒球数据库中有一个主表其中列出了曾经参加过比赛的每个球员还有一个击球表跟踪每个球员的击球统计数据我创建了一个将这两者结合在一起的视图因此masterplusbatting桌
如何在 Django 模型中存储任意名称/值键对？

我有一个包含很多数据字段的固定数据模型 class Widget Models model widget owner models ForeignKey auth User val1 models CharField val2 models
Python 中的硒

我一直在使用 urllib2 访问网页但它不支持 javascript 所以我看了一下 Selenium 但即使读了它的文档我也很困惑我下载了适用于 Firefox 的 Selenium IDE 插件并尝试了一些简单的操作 from
如何将 C# 方法作为回调传递给 CLI/C++ 函数？

我在 C CLI 中有这样的方法 void Foo OnEngineCloseCallback callback 具有这样的回调定义 typedef void OnEngineCloseCallback int String errorMe
SQL Server - 过去 12 个月的累计总和，但从上个月开始 (SQL Server 18)

我需要计算过去 12 个月内某个值的累计总和到目前为止我的累积计算正在运行但从当月开始我需要过去 12 个月的总计从从上个月开始目前我正在使用OVERSQL 子句从当前行月开始运行累积总计请参考下面我的代码示例 SELE
如何将外部资源（属性文件）添加到类路径中以便 war 可以读取？

我们在将外部目录具有 config properties 添加到类路径时遇到了小问题如果我们将其添加到类路径中我们应该能够在 Web 应用程序中读取它 Web 应用程序中有一些 Spring 应用程序会读取外部属性文件我在任何地方都
CSS @font-face 不适用于 Firefox，但适用于 Chrome 和 IE

以下代码适用于 Google Chrome beta 以及 IE 7 但是 Firefox 似乎存在问题我怀疑这是我的 CSS 文件包含方式的问题因为我知道 Firefox 对于跨域导入不太友好但这只是静态HTML 不存在跨域问题在
unpack_from 需要至少 1164 字节的缓冲区 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我正在使用 struct 来解析固定宽度字符串但是我在处理大于 1000 字节的固定宽度字符串时遇到了一些麻烦例如
交互设计、视觉设计、网页设计、UX设计、UI设计、UI开发之间有什么区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案交互设计视觉设计网页设计 UX设计 UI设计 UI开发之间有什么区别 BTB 下面找到的链接回答了 UI 与 UX 的问题 htt
Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？

我对 Apache Flink 比较陌生我正在尝试创建一个简单的项目将文件生成到 AWS S3 存储桶根据文档我似乎需要安装 Hadoop 才能执行此操作如何设置本地环境来测试此功能我在本地安装了 Apache Flink 和

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？

编辑使用 writeAsText 到 S3：

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？ 的相关文章

随机推荐

热门标签

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？的相关文章