ApacheBeam

Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降

googleclouddataflow ApacheBeam

在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da

Java Maven springboot googleclouddataflow ApacheBeam

Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti

googleclouddataflow ApacheBeam

如何使用 Apache Beam 从 Google Pub/Sub 访问消息 ID？

我一直在 Python 2 7 16 上使用 2 13 0 SDK 测试 Apache Beam 以流模式从 Google Pub Sub 订阅中提取简单消息并写入 Google Big Query 表作为此操作的一部分我尝试使用 P

python ApacheBeam googlecloudpubsub

在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2

googleclouddataflow ApacheBeam

如何在 python apache beam 中展平多个 Pcollection

应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation

python Stream ApacheBeam

如何从 Apache Beam 中的 HTTP 响应读取大文件？

Apache Beam 的 TextIO 可用于读取某些文件系统中的 JSON 文件但如何从 Java SDK 中的 HTTP 响应产生的大型 JSON InputStream 中创建 PCollection 我认为 Beam 目前没有通

ApacheBeam apachebeamio

Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为

googleclouddataflow ApacheBeam

从 Dataflow 进行流式传输时从 BigQuery 删除数据

从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据我们的用例是这样的我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间从表中删除 3 天前的数据是否建议这样做如果是有

googlebigquery googleclouddataflow ApacheBeam googlecloudpubsub

窗口后 Apache-beam 挂在 groupbykey 上 - 不触发

TLDR 如何使用 python SDK 更正触发计数窗口 Problem 我正在尝试创建一个用于转换和索引维基百科转储的管道目标是从压缩文件中读取只需一个进程并以流式传输方式因为该文件不适合 RAM 并行处理每个元素 ParDo

python3x Streaming ApacheBeam

在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2

Java SSL googlecloudplatform googleclouddataflow ApacheBeam

究竟是什么在管理光束中的水印？

Beam 的强大功能来自于它先进的窗口功能但它也有点令人困惑在本地测试中看到一些奇怪的情况我使用rabbitmq作为输入源其中消息并不总是得到ackd 并修复了不总是关闭的窗口我开始挖掘 StackOverflow 和 Beam

googleclouddataflow ApacheBeam

ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多

googleclouddataflow ApacheBeam

Apache Beam 中的异步 API 调用

正如标题所说我想使用 python 在 apache beam 中进行异步 API 调用目前我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF

python pythonrequests pythonasyncio googleclouddataflow ApacheBeam

旁加载静态数据

在 ParDo 中处理数据时我需要使用存储在 Google Cloud Storage 上的 JSON 架构我想这可能是侧面加载我读了他们称之为文档的页面 https beam apache org releases pydoc 2

python3x googleclouddataflow ApacheBeam

如何从数据流中的PCollection读取bigQuery

我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection

googlebigquery googleclouddataflow ApacheBeam

可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗？

我有一个将数据写入 Google Cloud pubsub 的应用程序根据 pubsub 的文档由于重试机制而导致的重复偶尔可能会发生还有消息乱序的问题这在 pubsub 中也得不到保证另外根据文档可以使用 Google Cl

MessageQueue googleclouddataflow ApacheBeam googlecloudpubsub

apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数

googlebigquery googleclouddataflow ApacheBeam dataflow

是否可以使用 Apache Beam / Google Cloud Dataflow 从 Azure EventHub 主题进行消费？

Problem 我们希望使用 Google Cloud 中的数据流管道来使用 Azure 中的 EventHub 主题 Question 是否知道 KafkaIO 是否允许直接在 Apache Beam Google Cloud 数据流作业

使用 Apache Beam 查找 2 个列表的笛卡尔积

我有2个PCollections PCollection

Java list Collections ApacheBeam cartesianproduct