Flink 使用 Ceph 作为持久存储

2024-04-18

Flink 文档建议 Ceph 可以用作状态的持久存储。https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/stream/checkpointing.html https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/stream/checkpointing.html

考虑到Ceph是事务型数据库,那不会对Flink的性能产生不利影响吗?


Ceph https://ceph.com将自己描述为“统一、分布式存储系统”并提供网络文件系统API。因此,它应该与 Flink 的状态后端无缝协作,将检查点保存到远程文件系统。

我不知道有人使用 Ceph(HDFS 和 S3 更常用),也没有有关性能的信息。但需要注意的是,Flink 能够异步写入检查点,因此存储系统的性能不会影响 Flink 应用程序的处理速度。然而,它可能会限制采取检查点的时间间隔。

Update:(2018 年 2 月)我注意到多个用户在 Flink 的用户邮件列表中报告说他们正在将 Ceph 与 Flink 结合使用。

更新2:Flink 在 S3 协议上运行良好,并且 (急速板和 Hadoop https://ci.apache.org/projects/flink/flink-docs-stable/ops/filesystems/s3.html#hadooppresto-s3-file-systems-plugins)Flink 的 S3 文件系统插件可以很好地使用它。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Flink 使用 Ceph 作为持久存储 的相关文章

  • 任务管理器丢失/被杀死[关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 当我尝试在独立集群中运行 flink 作业时 出现以下错误 java lang Exception TaskManager was lost
  • 从代码中取消 Apache Flink 作业

    我现在的情况是想从代码中停止 取消 flink 作业 这是在我的集成测试中 我正在向我的 flink 作业提交任务并检查结果 当作业异步运行时 即使测试失败 通过 它也不会停止 我想在考试结束后在车站工作 我尝试了一些事情 我在下面列出 获
  • Flink 作业在集群节点上的分布

    我们有 4 个作业 运行在 3 个节点上 每个节点有 4 个槽位 在 Flink 1 3 2 上 作业均匀分布在每个节点上 升级到 flink 1 5 后 每个作业都在单个节点上运行 如果没有剩余插槽 则可以转移到另一个节点 有没有办法恢复
  • Apache Flink - 启用连接排序

    我注意到 Apache Flink 没有优化表的连接顺序 目前 它保留用户指定的连接顺序 基本上 它按字面意思接受查询 我认为 Apache Calcite 可以优化连接顺序 但由于某种原因 这些规则没有在 Apache Flink 中使用
  • ClassNotFoundException:使用 kafka 主题时出现 org.apache.flink.streaming.api.checkpoint.CheckpointNotifier

    我正在使用最新的 Flink 1 1 2 Hadoop 27 和 flink connector kafka 0 10 2 hadoop1 jar Flink消费者如下 StreamExecutionEnvironment env Stre
  • 基于 ProcessWindowFunction 的 Flink 单元测试

    如何为有状态流程函数创建单元测试 我有这样的事情 private static SingleOutputStreamOperator
  • 如何覆盖 Apache Flink 中的配置值?

    我正在尝试将 Apache Flink 的指标收集到 Prometheus 中 Flink 文档说我需要将以下行添加到我的 flink conf yaml 中 metrics reporter promgateway class org a
  • 我可以将自定义分区器与 group by 一起使用吗?

    假设我知道我的数据集不平衡并且我知道键的分布 我想利用它来编写一个自定义分区器 以充分利用运算符实例 我知道关于数据流 partitionCustom https ci apache org projects flink flink doc
  • Apache Flink 使用 Windows 在写入 Sink 之前引发延迟

    我想知道 Flink 窗口是否可能导致从数据进入管道到写入 Cassandra 中的表之间有 10 分钟的延迟 我最初的意图是将每个事务写入 Cassandra 中的一个表 并在 Web 层使用范围键查询该表 但由于数据量很大 我正在考虑延
  • Flink REST API错误:请求与预期格式JarRunRequestBody不匹配

    尝试使用下面的 REST API 远程运行 Flink 作业 但抛出错误 curl X POST H Content Type application json data type object id urn jsonschema org
  • 根据 Flink 的模式使用 GCS 文件

    由于 Flink 支持 Hadoop 文件系统抽象 并且有一个GCS连接器 https github com GoogleCloudPlatform bigdata interop 在 Google Cloud Storage 之上实现它的
  • 谁能分享一下 Scala 中的 Flink Kafka 示例吗?

    谁能分享一下Scala中Flink Kafka 主要是从Kafka接收消息 的工作示例吗 我知道有一个Kafka字数统计 https github com apache spark blob master examples src main
  • Apache Flink:设置并行度的指南?

    我正在尝试获取一些简单的规则或指南来设置哪些值 操作员或工作 并行性 在我看来 它应该是一个数字 例如 假设我有 2 台任务管理器机器 每台都有 4 个任务槽 假设集群上没有运行其他作业 我会设置并行度吗 用于操作 喜欢过滤并映射到 8 如
  • 如何在其他流的基础上过滤Apache flink流?

    我有两个流 一个是 Int 另一个是 json 在 json Schema 中 有一个键是一些 int 所以我需要通过与另一个整数流的键比较来过滤 json 流 那么在 Flink 中是否可能 是的 您可以使用 Flink 进行这种流处理
  • Flink 中的水印和触发器有什么区别?

    我读到 排序运算符必须缓冲它接收到的所有元素 然后 当它接收到水印时 它可以对时间戳低于水印的所有元素进行排序 并按排序顺序发出它们 这是正确 因为水印表明不能有更多元素到达并与已排序元素混合 https cwiki apache org
  • 示例 flink 作业的错误消息:无法使字段 private Final byte[] java.lang.String.value 可访问

    我正在开始使用 Apache Flink 我将发布我遇到的错误 然后复制它的步骤 这是我运行的命令 bin flink run examples streaming WordCount jar input 这是错误文本 org apache
  • Ceph:每个 OSD PG 太多

    我使用推荐值配置了 Ceph 使用文档中的公式 我有 3 个 OSD 我的配置 我已将其放在监视器节点和所有 3 个 OSD 上 包括以下内容 osd pool default size 2 osd pool default min siz
  • 如何正确处理自定义MapFunction中的错误?

    我已经实施了MapFunction对于我的 Apache Flink 流程 它正在解析传入元素并将其转换为其他格式 但有时会出现错误 即传入数据无效 我看到两种可能的处理方法 忽略无效元素 但似乎我无法忽略错误 因为对于任何传入元素 我必须
  • Cassandra Pojo Sink Flink 中的动态表名称

    我是 Apache Flink 的新手 我正在使用 Pojo Sink 将数据加载到 Cassandra 中 现在 我在以下命令的帮助下指定表和键空间名称 Table注解 现在 我想在运行时动态传递表名称和键空间名称 以便可以将数据加载到用
  • 我可以将 flink RocksDB 状态后端与本地文件系统一起使用吗?

    我正在探索使用 FlinkrocksDb 状态后端 文档似乎暗示我可以使用常规文件系统 例如 file data flink checkpoints 但代码 javadoc 仅在此处提到 hdfs 或 s3 选项 我想知道是否可以将本地文件

随机推荐