Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
对 Parquet 批量格式使用压缩
从 Apache Flink 1 15 版本开始 您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
apacheflink
parquet
flinkstreaming
尝试升级到 flink 1.3.1 时出现异常
我尝试将集群中的 flink 版本升级到 1 3 1 以及 1 3 2 但我的任务管理器中出现以下异常 2018 02 28 12 57 27 120 ERROR org apache flink streaming runtime tas
ApacheKafka
apacheflink
flinkstreaming
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO
我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
POJO
apacheflink
amazonkinesis
flinkstreaming
Apache Flink - 作业内部无法识别自定义 java 选项
我已将以下行添加到 flink conf yaml 中 env java opts Ddy props path PATH TO PROPS FILE 启动 jobmanager jobmanager sh start cluster 时
Java
apacheflink
flinkstreaming
在 Flink 流中使用静态 DataSet 丰富 DataStream
我正在编写一个 Flink 流程序 其中我需要使用一些静态数据集 信息库 IB 来丰富用户事件的数据流 对于例如假设我们有一个买家的静态数据集 并且有一个传入的事件点击流 对于每个事件 我们希望添加一个布尔标志来指示事件的执行者是否是买家
Bigdata
apacheflink
dataanalysis
flinkstreaming
Apache Flink 检查点卡住
我们正在运行一个 ListState 介于 300GB 到 400GB 之间的作业 并且有时该列表可能会增加到数千 在我们的用例中 每个项目都必须有自己的 TTL 因此我们使用 S3 上的 RocksDB 后端为此 ListState 的每
apacheflink
flinkstreaming
rocksdb
Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试?
我对 Apache Flink 比较陌生 我正在尝试创建一个简单的项目 将文件生成到 AWS S3 存储桶 根据文档 我似乎需要安装 Hadoop 才能执行此操作 如何设置本地环境来测试此功能 我在本地安装了 Apache Flink 和
Hadoop
amazons3
apacheflink
flinkstreaming
flink kafka生产者在检查点恢复时以一次模式发送重复消息
我正在写一个案例来测试 flink 两步提交 下面是概述 sink kafka曾经是kafka生产者 sink stepmysql接收器是否扩展two step commit sink comparemysql接收器是否扩展two step
Streaming
apacheflink
flinkstreaming
blink
Flink:处理数据早于应用程序水印的键控流
我正在使用带有运动源和事件时间键控窗口的 F link 该应用程序将监听实时数据流 窗口 事件时间窗口 并处理每个键控流 我有另一个用例 我还需要能够支持某些关键流的旧数据的回填 这些将是事件时间 鉴于我正在使用水印 这会成为一个问题 因为
apacheflink
flinkstreaming
watermark
Flink 中的水印和触发器有什么区别?
我读到 排序运算符必须缓冲它接收到的所有元素 然后 当它接收到水印时 它可以对时间戳低于水印的所有元素进行排序 并按排序顺序发出它们 这是正确 因为水印表明不能有更多元素到达并与已排序元素混合 https cwiki apache org
Stream
Bigdata
Realtime
apacheflink
flinkstreaming
在任务管理器之间均匀分配 Flink 运算符
我正在 15 台机器的裸机集群上构建 Flink 流应用程序原型 我使用带有 90 个任务槽 15x6 的纱线模式 该应用程序从单个 Kafka 主题读取数据 Kafka主题有15个分区 所以我也将源算子的并行度设置为15 但是 我发现 F
apacheflink
flinkstreaming
如何在其他流的基础上过滤Apache flink流?
我有两个流 一个是 Int 另一个是 json 在 json Schema 中 有一个键是一些 int 所以我需要通过与另一个整数流的键比较来过滤 json 流 那么在 Flink 中是否可能 是的 您可以使用 Flink 进行这种流处理
apacheflink
flinkstreaming
Flink时间特性和AutoWatermarkInterval
在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印 以便他们提前事件时间 如果水印在指定的时间间隔内没有更改 没有事件到达 运行时将不会发出任何水印 另一方面 如果在下
apacheflink
flinkstreaming
处理时间窗口不适用于 Apache Flink 中的有限数据源
我正在尝试将一个非常简单的窗口函数应用于 Apache Flink 中的有限数据流 本地 无集群 这是例子 val env StreamExecutionEnvironment getExecutionEnvironment env fro
apacheflink
flinkstreaming
Apache Flink:KeyedStream 上的数据分布不均匀
我在 Flink 中有这样的 Java 代码 env setParallelism 6 Read from Kafka topic with 12 partitions DataStream
parallelprocessing
apacheflink
flinkstreaming
windowing
flink集群启动错误[ERROR]无法正确获取JVM参数
bin start cluster sh Starting cluster INFO 1 instance s of standalonesession are already running on centos1 Starting sta
apacheflink
flinkstreaming
Flink 中复杂拓扑(多输入)的集成测试
我需要为 flink 流拓扑编写单元测试 这基本上是一个CoFlatMapFunction 并且它有 2 个输入 我尝试从这个页面中获得一些灵感 https ci apache org projects flink flink docs s
Java
unittesting
apacheflink
flinkstreaming
Apache Flink:设置并行度的指南?
我正在尝试获取一些简单的规则或指南来设置哪些值 操作员或工作 并行性 在我看来 它应该是一个数字 例如 假设我有 2 台任务管理器机器 每台都有 4 个任务槽 假设集群上没有运行其他作业 我会设置并行度吗 用于操作 喜欢过滤并映射到 8 如
apacheflink
flinkstreaming
为什么我的 Flink 窗口使用这么多状态?
我的 Flink 作业的检查点变得越来越大 在深入研究各个任务后 键控窗口函数似乎负责大部分大小 我怎样才能减少这个 如果您在 Windows 中绑定了很多状态 则有几种可能性 使用增量聚合 通过使用reduce or aggregate
apacheflink
flinkstreaming
SingleOutputStreamOperator#returns(TypeHint
typeHint) 方法的 javadoc
我正在阅读源代码SingleOutputStreamOperator returns 它的javadoc是 Adds a type information hint about the return type of this operato
Java
apacheflink
flinkstreaming
1
2
3
4
»