Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
无论如何,是否可以在数据流管道中共享状态变量?
我正在用 python 制作数据流管道 我想跨管道转换和跨工作节点共享全局变量 例如全局变量 跨多个工作人员 有什么办法可以支持这个吗 提前感谢 有状态处理可用于在特定节点的工作人员之间共享状态 但无法在转换之间共享 https beam
googlecloudplatform
googleclouddataflow
ApacheBeam
有没有一种方法可以使用 Apache Beam FileIO 为每条记录写入一个文件?
我正在学习 Apache Beam 并尝试实现类似于 distcp 的东西 我使用 FileIO read filepattern 来获取输入文件 但是在使用 FileIO write 写入时 文件有时会合并 在作业执行之前知道分区计数是不
ApacheBeam
apachebeamio
从 Beam 管道连接 google cloud sql postgres 实例
我想从在谷歌数据流上运行的 apache beam 管道连接谷歌云 sql postgres 实例 我想使用 Python SDK 来完成此操作 我无法为此找到适当的文档 在云SQL如何指导我没有看到任何数据流文档 https cloud
python
postgresql
googlecloudsql
ApacheBeam
排查 apache beam 管道导入错误 [BoundedSource 对象大于允许的限制]
我有一堆文本文件 1M 存储在谷歌云存储上 当我将这些文件读入 Google Cloud DataFlow 管道进行处理时 我总是收到以下错误 Total size of the BoundedSource objects returned
python
googlecloudstorage
googleclouddataflow
dataflow
ApacheBeam
使用默认触发器在窗口中消耗无限数据
我有一个Pub Sub主题 订阅 并希望在一个订阅中消费和聚合无限数据Dataflow 我使用固定窗口并将聚合写入 BigQuery 读取和写入 没有窗口和聚合 工作正常 但是 当我将数据通过管道传输到固定窗口 以计算每个窗口中的元素 时
googleclouddataflow
ApacheBeam
Apache Beam - 跳过管道步骤
我正在使用 Apache Beam 设置一个由 2 个主要步骤组成的管道 使用 Beam Transform 来转换数据 将转换后的数据加载到 BigQuery 管道设置如下所示 myPCollection org apache beam
Java
googlecloudplatform
ApacheBeam
使用 Python SDK 进行数据流流式传输:将 PubSub 消息转换为 BigQuery 输出
我正在尝试使用数据流读取 pubsub 消息并将其写入大查询 我获得了 Google 团队的 alpha 访问权限 并且已经使提供的示例正常工作 但现在我需要将其应用到我的场景中 发布订阅有效负载 Message data datetime
python
googlebigquery
googleclouddataflow
ApacheBeam
dataflow
Cloud Dataflow - Dataflow 如何实现并行性?
我的问题是 在幕后 对于逐元素 Beam DoFn ParDo 云数据流如何并行工作负载 例如 在我的 ParDO 中 我向外部服务器发送一个针对一个元素的 http 请求 我使用了 30 个工人 每个工人有 4vCPU 这是否意味着每个工
googleclouddataflow
ApacheBeam
运行梁管道时,“PBegin”对象没有属性“windowing”
我在运行数据流作业时发现 PBegin 对象没有属性 windowing 我在 pardo 函数中调用 connectclass 类 我正在尝试从 Beam python SDK 连接 NOSQL 数据库并运行 sql 从表中提取数据 然后
python3x
googleclouddataflow
ApacheBeam
apachebeamio
apache beam 2.7.0 在 utf-8 编码法语字符中崩溃
我正在尝试将 csv 从 google 云平台的存储桶写入数据存储区 其中包含法语字符 口音但我有一条有关解码的错误消息 尝试从 进行编码和解码后latin 1 to utf 8 没有成功 使用unicode unicodedata 和编解
python27
googlecloudplatform
googleclouddatastore
ApacheBeam
带有数据流的 Apache Beam Go SDK
我一直在使用 Go Beam SDK v2 13 0 但无法获取字数统计示例致力于 GCP 数据流 它进入崩溃循环尝试启动org apache beam runners dataflow worker DataflowRunnerHarne
Java
go
protocolbuffers
googleclouddataflow
ApacheBeam
使用 Apache Beam 将插入流式传输到 BigQuery 时如何指定 insertId
BigQuery 支持流式插入的重复数据删除 如何通过 Apache Beam 使用此功能 https cloud google com bigquery streaming data into bigquery dataconsisten
Java
googlecloudplatform
googlebigquery
ApacheBeam
apachebeamio
Dataflow 模板是否支持 BigQuery 接收器选项的模板输入?
由于我正在运行一个正在运行的静态数据流 因此我想从此模板创建一个模板 以便我可以轻松地重用该数据流 而无需输入任何命令行 继创建模板官方的教程没有提供模板输出的示例 我的数据流以 BigQuery 接收器结束 该接收器接受一些参数 例如用于
python
googleclouddataflow
ApacheBeam
如何将 PCollection 转换为 python 数据流中的列表
我有一个 PC 合集P1包含 ID 字段 我想从 PCollection 中获取完整的 ID 列作为列表 并将该值传递给 BigQuery 查询以过滤一个 BigQuery 表 执行此操作最快且最优化的方法是什么 我是数据流和大数据的新手
googlebigquery
googleclouddataflow
ApacheBeam
有状态索引导致 ParDo 在 Dataflow Runner 上单线程运行
我们使用 Beam 的 Java SDK 2 0 0 在 ParDo 中生成顺序索引 就像Beam中简单的有状态索引示例一样有状态处理简介我们用一个ValueState
googleclouddataflow
ApacheBeam
Apache Beam:固定窗口触发器
根据下列的文档中指出 如果您没有明确指定触发器 您会得到如下所述的行为 如果未指定 默认行为是在以下情况下首先触发 水印经过窗口末尾 然后每隔一段时间再次触发 时间有迟到的数据 对于固定窗口来说 这种行为也成立吗 例如 您假设固定窗口应该有
googleclouddataflow
ApacheBeam
Beam Streaming 管道不会将文件写入存储桶
UI 在 GCP Dataflow 上有一个 python 流管道 可以从 PubSub 读取数千条消息 如下所示 with beam Pipeline options pipeline options as p lines p read
python3x
googleclouddataflow
ApacheBeam
使用 Apache Beam 按键处理事件的总排序
问题背景 我正在尝试从实时流中生成每个键的事件项的总 线性 顺序 其中顺序是事件时间 源自事件有效负载 Approach 我曾尝试使用流式传输来实现此目的 如下所示 1 设置一个非重叠的顺序窗口 例如时长5分钟 2 建立允许的迟到 可以丢弃
googleclouddataflow
ApacheBeam
如何使环境变量作为python sdk中的环境变量到达Dataflow工作人员
我用 python sdk 编写自定义接收器 我尝试将数据存储到AWS S3 要连接 S3 需要一些凭据 密钥 但出于安全原因 最好在代码中设置 我想让环境变量作为环境变量到达数据流工作人员 我该怎么做 一般来说 为了向您不想硬编码的工作人
googlecloudplatform
googleclouddataflow
ApacheBeam
Dataflow/Apache Beam 在哪个阶段确认 pub/sub 消息?
我有一个数据流流作业 其中 Pub Sub 订阅作为无限源 我想知道数据流在哪个阶段确认传入的发布 订阅消息 在我看来 如果在数据流管道的任何阶段抛出异常 消息就会丢失 另外 我想知道如何使用发布 订阅无界源编写数据流管道的最佳实践 以便在
googlecloudplatform
googlecloudpubsub
ApacheBeam
dataflow
«
1
2
3
4
5
6
7
»