Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作
有没有办法将侧面输入应用于 Apache Beam 中的 BigQueryIO read 操作 举例来说 我在 PCollection 中有一个值 我想在查询中使用该值从 BigQuery 表中获取数据 使用侧面输入可以吗 或者在这种情况下
googleclouddataflow
ApacheBeam
Apache Beam:如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”
我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除 但是 我创建后遇到错误KV
Java
googleclouddataflow
ApacheBeam
DETERMINISTIC
Dataflow/apache beam:管理自定义模块依赖项
我有一个使用 apache beam 的 py 管道 它导入另一个模块 py 这是我的自定义模块 我有一个这样的结构 mymain py myothermodule py 我将 myothermodule py 导入到 mymain py
python
googleclouddataflow
ApacheBeam
Spring 与 Apache Beam
我想将 Spring 与 Apache Beam 结合使用 它将在 Google Cloud Data flow Runner 上运行 数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文 我想在 Apache Bea
Spring
googleclouddataflow
ApacheBeam
Apache Beam Pipeline 写表后查询表
我有一个 Apache Beam Dataflow 管道 它将结果写入 BigQuery 表 然后我想查询该表以获取管道的单独部分 但是 我似乎无法弄清楚如何正确设置此管道依赖性 我编写的新表 然后想要查询 与一个单独的表连接以进行某些过滤
python
googleclouddataflow
ApacheBeam
在数据流模板中调用 waitUntilFinish() 后可以运行代码吗?
我有一个批处理 Apache Beam 作业 它从 GCS 获取文件作为输入 我的目标是根据执行后管道的状态将文件移动到两个 GCS 存储桶之一 如果管道执行成功 则将文件移动到存储桶 A 否则 如果管道在执行过程中出现任何未处理的异常 则
Java
googleclouddataflow
ApacheBeam
如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误?
当我远程运行数据管道时 会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的 并且我在 Google Cloud Dataflow 之上运行它 当我在本地运行时 管道工作正常 以下代码生成 Pi
googleclouddataflow
gcloud
ApacheBeam
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError
我无法使用 python 3 7 暂存云数据流模板 它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
python
python3x
googleclouddataflow
ApacheBeam
bigquery DataFlow 错误:在 EU 中读写时无法在不同位置读写
我有一个简单的 Google DataFlow 任务 它从 BigQuery 表中读取数据并写入另一个表 如下所示 p beam io Read beam io BigQuerySource query select dia import
python
googlebigquery
googleclouddataflow
ApacheBeam
在 Apache Beam 中连接行
我无法理解 Apache Beam 中的连接 例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac
Java
ApacheBeam
如何在流式管道中按小捆绑的 N 个元素进行批处理?
我已经按照此答案中的描述实现了 N 个元素的批处理 谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input
googleclouddataflow
ApacheBeam
计算一次 GroupBy,然后将其传递给 Google DataFlow (Python SDK) 中的多个转换
我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道 我需要运行多个转换 所有这些转换都希望项目按键分组 基于这个答案question https stackoverfl
googlecloudplatform
googleclouddataflow
ApacheBeam
Apache Beam:具有无限源的批处理管道
我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据 数据来自Google PubSub 它是无限制的 所以目前我正在使用流媒体管道 然而 事实证明 拥有一个 24 7 运行的流管道是相当昂贵的 为了降
googleclouddataflow
ApacheBeam
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道
我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道 但我一直遇到此错误Failed to construct instance from factory method Da
Java
Maven
springboot
googleclouddataflow
ApacheBeam
Apache Beam:跳过已构建的管道中的步骤
有没有办法有条件地跳过已构建的管道中的步骤 或者管道构建是否被设计为控制运行哪些步骤的唯一方法 通常 管道构造控制将执行管道中的哪些转换 但是 您可以想象一个输入 多个输出ParDo复用输入PCollection到输出之一PCollecti
googleclouddataflow
ApacheBeam
如何使用 Apache Beam 从 Google Pub/Sub 访问消息 ID?
我一直在 Python 2 7 16 上使用 2 13 0 SDK 测试 Apache Beam 以流模式从 Google Pub Sub 订阅中提取简单消息 并写入 Google Big Query 表 作为此操作的一部分 我尝试使用 P
python
ApacheBeam
googlecloudpubsub
在 Apache Beam 中监视与文件模式匹配的新文件
我在 GCS 或其他受支持的文件系统上有一个目录 外部进程正在向该目录写入新文件 我想编写一个 Apache Beam 流式传输管道 它可以连续监视此目录中的新文件 并在每个新文件到达时读取和处理它 这可能吗 从 Apache Beam 2
googleclouddataflow
ApacheBeam
如何在 python apache beam 中展平多个 Pcollection
应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
python
Stream
ApacheBeam
如何从 Apache Beam 中的 HTTP 响应读取大文件?
Apache Beam 的 TextIO 可用于读取某些文件系统中的 JSON 文件 但如何从 Java SDK 中的 HTTP 响应产生的大型 JSON InputStream 中创建 PCollection 我认为 Beam 目前没有通
ApacheBeam
apachebeamio
Apache Beam:DoFn 与 PTransform
Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个 理解它的一个简单方法是类比map f 对于列表 高阶函数map将函数应用于列表的每个元素 返回结果的新列表 您可以将其称为
googleclouddataflow
ApacheBeam
1
2
3
4
5
6
7
»