apacheflink

Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我

errorhandling apacheflink eventstreamprocessing

我可以将 flink RocksDB 状态后端与本地文件系统一起使用吗？

我正在探索使用 FlinkrocksDb 状态后端文档似乎暗示我可以使用常规文件系统例如 file data flink checkpoints 但代码 javadoc 仅在此处提到 hdfs 或 s3 选项我想知道是否可以将本地文件

apacheflink rocksdb

Cassandra Pojo Sink Flink 中的动态表名称

我是 Apache Flink 的新手我正在使用 Pojo Sink 将数据加载到 Cassandra 中现在我在以下命令的帮助下指定表和键空间名称 Table注解现在我想在运行时动态传递表名称和键空间名称以便可以将数据加载到用

Java cassandra apacheflink

对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre

apacheflink parquet flinkstreaming

flink - 使用匕首注入 - 不可序列化？

我使用 Flink 最新通过 git 从 kafka 流式传输到 cassandra 为了简化单元测试我通过 Dagger 添加依赖注入 ObjectGraph 似乎已正确设置自身但内部对象被 Flink 标记为不可序列化如果我

Java serialization dagger apacheflink

如何正确处理自定义MapFunction中的错误？

我已经实施了MapFunction对于我的 Apache Flink 流程它正在解析传入元素并将其转换为其他格式但有时会出现错误即传入数据无效我看到两种可能的处理方法忽略无效元素但似乎我无法忽略错误因为对于任何传入元素我必须

apacheflink

创建具有通用返回类型的 FlinkSQL UDF

我想定义函数MAX BY接受类型值T和类型的订购参数Number并根据排序从窗口返回最大元素类型为T 我试过了 public class MaxBy

apacheflink flinksql

尝试升级到 flink 1.3.1 时出现异常

我尝试将集群中的 flink 版本升级到 1 3 1 以及 1 3 2 但我的任务管理器中出现以下异常 2018 02 28 12 57 27 120 ERROR org apache flink streaming runtime tas

ApacheKafka apacheflink flinkstreaming

Flink 使用 Ceph 作为持久存储

Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http

apacheflink ceph

Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream

POJO apacheflink amazonkinesis flinkstreaming

Apache Flink 上的 zipWithIndex

我想为我的输入的每一行分配一个id 这应该是一个数字0 to N 1 where N是输入中的行数粗略地说我希望能够执行以下操作 val data sc textFile textFilePath numPartitions val r

scala apacheflink

Flink Logging 获取作业名称或作业 ID

我正在尝试设置 logback xml 以便它将包含与日志记录关联的 JobName 或 JobId 我还没有找到一种方法来做到这一点是否可以最终我想要实现的是能够将日志发送到 ElasticSearch 并用消息标记 JobName

apacheflink

基于流的应用程序中的受控/手动错误/恢复处理

我正在开发一个基于的应用程序Apache Flink 它利用Apache Kafka用于输入和输出该应用程序可能会被移植到Apache Spark 所以我也将其添加为标签问题仍然相同我要求通过 kafka 接收的所有传入消息必须按顺序

apachespark errorhandling ApacheKafka Stream apacheflink

Flink 检查点到 Google Cloud Storage

我正在尝试为 GCS 中的 flink 作业配置检查点如果我在本地运行测试作业没有 docker 和任何集群设置一切正常但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja

googlecloudstorage apacheflink googleclouddataproc

Flink 流顺序

Flink 能保证流的执行顺序吗我有两个 Kafka 主题每个主题都有一个分区流 1 和流 2 并使用keyBy 流由一个处理coprocess功能在我的测试过程中我可以看到两个流的内容并不总是按顺序执行我可以将并行度设置为 1

Java apacheflink

Flink 的简单 hello world 示例

我正在寻找 Apache flink 的 hello world 体验的最简单的示例假设我刚刚在一个干净的盒子上安装了 flink 那么为了让它做某事我需要做的最低限度是什么我意识到这很模糊这里有一些例子来自终端的三个 pyth

apacheflink

Apache Flink - 作业内部无法识别自定义 java 选项

我已将以下行添加到 flink conf yaml 中 env java opts Ddy props path PATH TO PROPS FILE 启动 jobmanager jobmanager sh start cluster 时

Java apacheflink flinkstreaming

在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家

Bigdata apacheflink dataanalysis flinkstreaming

在 Flink 中，我可以在同一个槽中拥有一个算子的多个子任务吗？

探索Apache Flink几天了对Task Slot的概念有些疑惑虽然有人问了几个问题但有一点我不明白我正在使用一个玩具应用程序进行测试运行本地集群我已禁用运算符链接我从文档中知道插槽允许内存隔离而不是 CPU 隔离阅读文

apacheflink

Apache Flink、JDBC 和 fat jar 是否存在类加载问题？

使用 Apache Flink 1 8 并尝试运行RichAsyncFunction 我得到No Suitable Driver Found初始化 Hikari 池时出错RichAsyncFunction open 在 IDE 中它运行得很

Java classLoader apacheflink