Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何将在执行同一数据流管道期间计算的架构写入 BigQuery?
我的场景是此处讨论的场景的一种变体 如何使用数据流执行期间计算的架构写入 BigQuery https stackoverflow com questions 29440279 how do i write to bigquery usin
googleclouddataflow
Apache Beam:为什么全局窗口中聚合值的时间戳是 9223371950454775?
我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化 在 Google Dataflow 1 9 中 我们将在窗口 组合函数之后在 DoFn 中获得正确的时间
googleclouddataflow
ApacheBeam
仅在另一个管道在谷歌数据流上完成后才执行管道
我想在谷歌数据流上运行一个管道 该管道取决于另一个管道的输出 现在我只是在本地使用 DirectRunner 运行两个管道 with beam Pipeline options pipeline options as p p beam io
python
googleclouddataflow
ApacheBeam
BigQueryIO 读取与 fromQuery
假设在 Dataflow Apache Beam 程序中 我正在尝试读取数据呈指数增长的表 我想提高读取的性能 BigQueryIO Read from projectid dataset tablename or BigQueryIO R
googlebigquery
googleclouddataflow
dataflow
Google Dataflow:在流式管道中的 BigQuery 中插入 + 更新
主要对象 一个 python 流管道 我在其中读取来自 pub sub 的输入 分析输入后 有两个选项可用 如果 x 1 gt 插入 如果 x 2 gt 更新 Testing 使用apache beam函数无法完成此操作 因此需要使用Big
python
googlebigquery
googleclouddataflow
ApacheBeam
在 BigQueryIO.write() 操作之后执行进程
我有一个以 BigQuery 表作为接收器的管道 我需要在数据写入 BigQuery 后执行一些步骤 这些步骤包括对该表执行查询 从中读取数据以及写入不同的表 如何实现以上目标 我是否应该为后者创建一个不同的管道 但在第一个管道之后调用它将
googleclouddataflow
ApacheBeam
如何修复使用 GCSUtil 写入文件时有关线程组仍在运行的 Maven 警告?
我写了一个简单的program https bitbucket org jlewi dataflow src b2e666896b763e5b8293da899885ecdea31d45af dataflow src main java d
Maven
googleclouddataflow
如何激活Dataflow Shuffle服务?
我正在尝试使用数据流洗牌服务 https cloud google com dataflow service dataflow service desc cloud dataflow shuffle在 python 环境中 但似乎 shuf
python
googleclouddataflow
使用状态和定时器进行处理
在 Beam Dataflow 运行程序中使用状态处理和计时器 从 v2 1 0 开始 是否有任何准则或限制 例如状态大小或更新频率的限制等 候选流管道将广泛使用状态和计时器来表示用户会话状态 并使用 Bigtable 作为持久存储 以下是
googleclouddataflow
ApacheBeam
com.google.datastore.v1 和 com.google.cloud.datastore 之间的差异/缺少禁用索引的选项
我目前正在构建一个 Google Cloud Dataflow 作业 它解析 XML 文件并使用 Google Datastore 保存条目 但不同的 Java 库似乎非常混乱 首先 我找到了 com google datastore v1
Java
googleclouddatastore
googleclouddataflow
从 CSV 数据流 python 创建字典
我正在尝试从 python 中的 csv 数据创建一个字典 我不想使用传统的 split 然后使用将行重命名为我想要的标题 因为我将收到具有不同格式的不同 csv 文件信息量很大 而且我将无法使用该方法一致地定位我想要的行 标头名称将是一致
python
list
csv
Dictionary
googleclouddataflow
Beam/Google Cloud 数据流 ReadFromPubsub 缺失数据
我有 2 个数据流流管道 pubsub 到 bigquery 代码如下 class transform class beam DoFn def process self element publish time beam DoFn Time
流缓冲区 - Google BigQuery
我正在开发一个 python 程序来使用 Google Dataflow 模板 我正在做的是将数据从 PubSub 写入 BigQuery pipeline options view as StandardOptions streaming
python
googlebigquery
googleclouddataflow
为什么运行管道时会向 GCS 写入零字节文件?
我们的工作 管道正在将 ParDo 转换的结果写回 GCS 即使用TextIO Write to gs 我们注意到 当作业 管道完成时 它会在输出存储桶中留下大量 0 字节文件 管道的输入来自 GCS 的多个文件 因此我假设结果是分片的 这
googlecloudstorage
googleclouddataflow
如何在java中使用谷歌云数据流从云存储读取时跳过csv文件中的回车符
我有一个 CSV 文件 其中每行都包含新的回车符 n 使用 Apache Beam 的 TextIO read 函数从云存储读取 CSV 文件时 它会将 n 视为新记录 我怎样才能克服这个问题 我尝试过扩展 filebasedsource
googleclouddataflow
googledataapi
使用特定 SA 通过 Cloud Build 部署 Dataflow 管道
我竭尽全力尝试使用特定 SA 而不是默认的 Cloud Build SA 从 Cloud Build 部署数据流管道 但到目前为止尚未成功 我遵循了这个过程 https cloud google com build docs secure
AttributeError:“AuthorizedSession”对象没有属性“configure_mtls_channel”
我正在使用 Cloud Composer 编排两个数据流作业 并且一个月以来运行良好 突然 这两个作业停止工作 并出现以下错误消息 在 download blob 文件中 usr local lib python3 6 site packa
googlecloudstorage
googleclouddataflow
googlecloudcomposer
如何在Beam 2.0中获取复合PTransform中的PipelineOptions?
升级到 Beam 2 0 后Pipeline类没有getOptions 不再上课了 我有一个复合的PTransform这依赖于获取其选项expand method public class MyCompositeTransform exte
googleclouddataflow
ApacheBeam
在从 Dataflow 插入 BigQuery 之前验证行
根据从数据流加载 Bigquery 表时如何设置 Maximum bad records https stackoverflow com questions 31904142 how do we set maximum bad record
googlebigquery
googleclouddataflow
Cloud Dataflow - 增加 JVM Xmx 值
我们正在尝试在云中运行 Google Cloud Dataflow 作业 但我们不断收到 java lang OutOfMemoryError Java 堆空间 我们正在尝试处理 Big Query 表中的 6 1 亿条记录 并将处理后的记
Java
googlecloudplatform
googleclouddataflow
«
1
2
3
4
5
6
7
8
...10
»