googleclouddataflow

如何将在执行同一数据流管道期间计算的架构写入 BigQuery？

我的场景是此处讨论的场景的一种变体如何使用数据流执行期间计算的架构写入 BigQuery https stackoverflow com questions 29440279 how do i write to bigquery usin

googleclouddataflow

Apache Beam：为什么全局窗口中聚合值的时间戳是 9223371950454775？

我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化在 Google Dataflow 1 9 中我们将在窗口组合函数之后在 DoFn 中获得正确的时间

googleclouddataflow ApacheBeam

仅在另一个管道在谷歌数据流上完成后才执行管道

我想在谷歌数据流上运行一个管道该管道取决于另一个管道的输出现在我只是在本地使用 DirectRunner 运行两个管道 with beam Pipeline options pipeline options as p p beam io

python googleclouddataflow ApacheBeam

BigQueryIO 读取与 fromQuery

假设在 Dataflow Apache Beam 程序中我正在尝试读取数据呈指数增长的表我想提高读取的性能 BigQueryIO Read from projectid dataset tablename or BigQueryIO R

googlebigquery googleclouddataflow dataflow

Google Dataflow：在流式管道中的 BigQuery 中插入 + 更新

主要对象一个 python 流管道我在其中读取来自 pub sub 的输入分析输入后有两个选项可用如果 x 1 gt 插入如果 x 2 gt 更新 Testing 使用apache beam函数无法完成此操作因此需要使用Big

python googlebigquery googleclouddataflow ApacheBeam

在 BigQueryIO.write() 操作之后执行进程

我有一个以 BigQuery 表作为接收器的管道我需要在数据写入 BigQuery 后执行一些步骤这些步骤包括对该表执行查询从中读取数据以及写入不同的表如何实现以上目标我是否应该为后者创建一个不同的管道但在第一个管道之后调用它将

googleclouddataflow ApacheBeam

如何修复使用 GCSUtil 写入文件时有关线程组仍在运行的 Maven 警告？

我写了一个简单的program https bitbucket org jlewi dataflow src b2e666896b763e5b8293da899885ecdea31d45af dataflow src main java d

Maven googleclouddataflow

如何激活Dataflow Shuffle服务？

我正在尝试使用数据流洗牌服务 https cloud google com dataflow service dataflow service desc cloud dataflow shuffle在 python 环境中但似乎 shuf

python googleclouddataflow

使用状态和定时器进行处理

在 Beam Dataflow 运行程序中使用状态处理和计时器从 v2 1 0 开始是否有任何准则或限制例如状态大小或更新频率的限制等候选流管道将广泛使用状态和计时器来表示用户会话状态并使用 Bigtable 作为持久存储以下是

googleclouddataflow ApacheBeam

com.google.datastore.v1 和 com.google.cloud.datastore 之间的差异/缺少禁用索引的选项

我目前正在构建一个 Google Cloud Dataflow 作业它解析 XML 文件并使用 Google Datastore 保存条目但不同的 Java 库似乎非常混乱首先我找到了 com google datastore v1

Java googleclouddatastore googleclouddataflow

从 CSV 数据流 python 创建字典

我正在尝试从 python 中的 csv 数据创建一个字典我不想使用传统的 split 然后使用将行重命名为我想要的标题因为我将收到具有不同格式的不同 csv 文件信息量很大而且我将无法使用该方法一致地定位我想要的行标头名称将是一致

python list csv Dictionary googleclouddataflow

Beam/Google Cloud 数据流 ReadFromPubsub 缺失数据

我有 2 个数据流流管道 pubsub 到 bigquery 代码如下 class transform class beam DoFn def process self element publish time beam DoFn Time

流缓冲区 - Google BigQuery

我正在开发一个 python 程序来使用 Google Dataflow 模板我正在做的是将数据从 PubSub 写入 BigQuery pipeline options view as StandardOptions streaming

python googlebigquery googleclouddataflow

为什么运行管道时会向 GCS 写入零字节文件？

我们的工作管道正在将 ParDo 转换的结果写回 GCS 即使用TextIO Write to gs 我们注意到当作业管道完成时它会在输出存储桶中留下大量 0 字节文件管道的输入来自 GCS 的多个文件因此我假设结果是分片的这

googlecloudstorage googleclouddataflow

如何在java中使用谷歌云数据流从云存储读取时跳过csv文件中的回车符

我有一个 CSV 文件其中每行都包含新的回车符 n 使用 Apache Beam 的 TextIO read 函数从云存储读取 CSV 文件时它会将 n 视为新记录我怎样才能克服这个问题我尝试过扩展 filebasedsource

googleclouddataflow googledataapi

使用特定 SA 通过 Cloud Build 部署 Dataflow 管道

我竭尽全力尝试使用特定 SA 而不是默认的 Cloud Build SA 从 Cloud Build 部署数据流管道但到目前为止尚未成功我遵循了这个过程 https cloud google com build docs secure

AttributeError：“AuthorizedSession”对象没有属性“configure_mtls_channel”

我正在使用 Cloud Composer 编排两个数据流作业并且一个月以来运行良好突然这两个作业停止工作并出现以下错误消息在 download blob 文件中 usr local lib python3 6 site packa

googlecloudstorage googleclouddataflow googlecloudcomposer

如何在Beam 2.0中获取复合PTransform中的PipelineOptions？

升级到 Beam 2 0 后Pipeline类没有getOptions 不再上课了我有一个复合的PTransform这依赖于获取其选项expand method public class MyCompositeTransform exte

googleclouddataflow ApacheBeam

在从 Dataflow 插入 BigQuery 之前验证行

根据从数据流加载 Bigquery 表时如何设置 Maximum bad records https stackoverflow com questions 31904142 how do we set maximum bad record

googlebigquery googleclouddataflow

Cloud Dataflow - 增加 JVM Xmx 值

我们正在尝试在云中运行 Google Cloud Dataflow 作业但我们不断收到 java lang OutOfMemoryError Java 堆空间我们正在尝试处理 Big Query 表中的 6 1 亿条记录并将处理后的记

Java googlecloudplatform googleclouddataflow