Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
计算一次 GroupBy,然后将其传递给 Google DataFlow (Python SDK) 中的多个转换
我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道 我需要运行多个转换 所有这些转换都希望项目按键分组 基于这个答案question https stackoverfl
googlecloudplatform
googleclouddataflow
ApacheBeam
将新文件添加到 Cloud Storage 时触发 Dataflow 作业
我想在将新文件添加到存储桶时触发数据流作业 以便处理新数据并将其添加到 BigQuery 表中 我看到云函数可以被触发 https cloud google com functions calling google cloud storag
googlecloudstorage
googleclouddataflow
googlecloudfunctions
Apache Beam:具有无限源的批处理管道
我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据 数据来自Google PubSub 它是无限制的 所以目前我正在使用流媒体管道 然而 事实证明 拥有一个 24 7 运行的流管道是相当昂贵的 为了降
googleclouddataflow
ApacheBeam
压缩保存在Google云存储中的文件
是否可以压缩已保存在 Google 云存储中的文件 这些文件由 Google 数据流代码创建和填充 数据流无法写入压缩文件 但我的要求是将其保存为压缩格式 标准 TextIO Sink 不支持写入压缩文件 因为从压缩文件中读取的可扩展性较差
googlecloudstorage
googleclouddataflow
从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier
当我从 BigQuery 读取数据作为查询结果时 我正在运行 GCP Dataflow 作业 我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti
googlebigquery
googlecloudplatform
googleclouddataflow
如何在数据流中正确使用“展平”
我们的管道如下所示 GCS gz 压缩文件 gt ParDo gt BigQuery 我想使用 展平 从 GCS 中提取多个文件作为管道的输入 但它一直因错误而烦恼 Workflow failed Causes 5001e5764f46ac
googleclouddataflow
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道
我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道 但我一直遇到此错误Failed to construct instance from factory method Da
Java
Maven
springboot
googleclouddataflow
ApacheBeam
Apache Beam:跳过已构建的管道中的步骤
有没有办法有条件地跳过已构建的管道中的步骤 或者管道构建是否被设计为控制运行哪些步骤的唯一方法 通常 管道构造控制将执行管道中的哪些转换 但是 您可以想象一个输入 多个输出ParDo复用输入PCollection到输出之一PCollecti
googleclouddataflow
ApacheBeam
写入 BigQuery 时处理卡住
我正在使用云数据流将数据从 Pub Sub 消息导入到 BigQuery 表 我正在使用 DynamicDestinations 因为这些消息可以放入不同的表中 我最近注意到该进程开始消耗所有资源 并且消息表明该进程被卡住开始显示 Proc
Java
googlebigquery
googleclouddataflow
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中?
我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
python
googleclouddataflow
在 Apache Beam 中监视与文件模式匹配的新文件
我在 GCS 或其他受支持的文件系统上有一个目录 外部进程正在向该目录写入新文件 我想编写一个 Apache Beam 流式传输管道 它可以连续监视此目录中的新文件 并在每个新文件到达时读取和处理它 这可能吗 从 Apache Beam 2
googleclouddataflow
ApacheBeam
Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案?
根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除 有没有办法控制 增加数据流 2 1 0 上 DoFns 的并行度 当我在 1 9 0 版本的数据流上使用 IntrabundlePa
googleclouddataflow
dataflow
从 Dataflow 写入 BigQuery - 作业完成时不会删除 JSON 文件
我们的 Dataflow 作业之一将其输出写入 BigQuery 我对其幕后实现方式的理解是 Dataflow 实际上将 JSON 格式的结果 分片 写入 GCS 然后启动 BigQuery 加载作业以导入该数据 但是 我们注意到 无论作业
googleclouddataflow
在 Cloud Dataflow 中进行 ETL 和解析 CSV 文件
我是云数据流和 Java 的新手 所以我希望这是正确的问题 我有一个 csv 文件 其中有 n 个列和行 可以是字符串 整数或时间戳 我需要为每一列创建一个新的 PCollection 吗 我在示例中找到的大多数文档都类似于 PCollec
csv
googleclouddataflow
Apache Beam:DoFn 与 PTransform
Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个 理解它的一个简单方法是类比map f 对于列表 高阶函数map将函数应用于列表的每个元素 返回结果的新列表 您可以将其称为
googleclouddataflow
ApacheBeam
数据流:将 Top 模块与 Python SDK 结合使用:单元素 PCollection
我正在查看 incubator beam 存储库上的 word counting py 示例 从数据流文档链接 我想修改它以获得n 出现次数最多的 这是我的管道 counts lines split gt gt beam ParDo Wor
python
googlecloudplatform
googleclouddataflow
分析云数据流 BigQuery 吞吐量/管道
我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳 首先 我刚刚创建了一个简单的流程 从 BigQuery 读取数据 约 25M 行 总共 30GB 执行 JSON 提取 按键进行简单的分组 然后对分组进行聚合 每个约 1
performance
Stream
googlebigquery
googleclouddataflow
从 Dataflow 进行流式传输时从 BigQuery 删除数据
从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据 我们的用例是这样的 我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间 从表中删除 3 天前的数据 是否建议这样做 如果是 有
googlebigquery
googleclouddataflow
ApacheBeam
googlecloudpubsub
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException
我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中 它执行 https 调用 想想 REST API 在我的本地环境中 所有这些都可以在 DirectRun 中正常运行 这是我的本地环境 apache beam 2
Java
SSL
googlecloudplatform
googleclouddataflow
ApacheBeam
如何使用 python API 列出所有数据流作业
我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它 更新我的数据流作业的源并重新运行它 我正在尝试使用 python 来实现这一点 直到现在我还没有遇到任何有用的文档 我想到使用 python 的库子进程来执行 gcloud
python
googlecloudplatform
googleclouddataflow
1
2
3
4
5
6
...9
»