googleclouddataflow

计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl

googlecloudplatform googleclouddataflow ApacheBeam

将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag

googlecloudstorage googleclouddataflow googlecloudfunctions

Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降

googleclouddataflow ApacheBeam

压缩保存在Google云存储中的文件

是否可以压缩已保存在 Google 云存储中的文件这些文件由 Google 数据流代码创建和填充数据流无法写入压缩文件但我的要求是将其保存为压缩格式标准 TextIO Sink 不支持写入压缩文件因为从压缩文件中读取的可扩展性较差

googlecloudstorage googleclouddataflow

从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier

当我从 BigQuery 读取数据作为查询结果时我正在运行 GCP Dataflow 作业我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti

googlebigquery googlecloudplatform googleclouddataflow

如何在数据流中正确使用“展平”

我们的管道如下所示 GCS gz 压缩文件 gt ParDo gt BigQuery 我想使用展平从 GCS 中提取多个文件作为管道的输入但它一直因错误而烦恼 Workflow failed Causes 5001e5764f46ac

googleclouddataflow

在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da

Java Maven springboot googleclouddataflow ApacheBeam

Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti

googleclouddataflow ApacheBeam

写入 BigQuery 时处理卡住

我正在使用云数据流将数据从 Pub Sub 消息导入到 BigQuery 表我正在使用 DynamicDestinations 因为这些消息可以放入不同的表中我最近注意到该进程开始消耗所有资源并且消息表明该进程被卡住开始显示 Proc

Java googlebigquery googleclouddataflow

如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul

python googleclouddataflow

在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2

googleclouddataflow ApacheBeam

Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案？

根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除有没有办法控制增加数据流 2 1 0 上 DoFns 的并行度当我在 1 9 0 版本的数据流上使用 IntrabundlePa

googleclouddataflow dataflow

从 Dataflow 写入 BigQuery - 作业完成时不会删除 JSON 文件

我们的 Dataflow 作业之一将其输出写入 BigQuery 我对其幕后实现方式的理解是 Dataflow 实际上将 JSON 格式的结果分片写入 GCS 然后启动 BigQuery 加载作业以导入该数据但是我们注意到无论作业

googleclouddataflow

在 Cloud Dataflow 中进行 ETL 和解析 CSV 文件

我是云数据流和 Java 的新手所以我希望这是正确的问题我有一个 csv 文件其中有 n 个列和行可以是字符串整数或时间戳我需要为每一列创建一个新的 PCollection 吗我在示例中找到的大多数文档都类似于 PCollec

csv googleclouddataflow

Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为

googleclouddataflow ApacheBeam

数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection

我正在查看 incubator beam 存储库上的 word counting py 示例从数据流文档链接我想修改它以获得n 出现次数最多的这是我的管道 counts lines split gt gt beam ParDo Wor

python googlecloudplatform googleclouddataflow

分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1

performance Stream googlebigquery googleclouddataflow

从 Dataflow 进行流式传输时从 BigQuery 删除数据

从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据我们的用例是这样的我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间从表中删除 3 天前的数据是否建议这样做如果是有

googlebigquery googleclouddataflow ApacheBeam googlecloudpubsub

在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2

Java SSL googlecloudplatform googleclouddataflow ApacheBeam

如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud

python googlecloudplatform googleclouddataflow