Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
从 Dataflow 进行流式传输时从 BigQuery 删除数据
从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据 我们的用例是这样的 我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间 从表中删除 3 天前的数据 是否建议这样做 如果是 有
googlebigquery
googleclouddataflow
ApacheBeam
googlecloudpubsub
窗口后 Apache-beam 挂在 groupbykey 上 - 不触发
TLDR 如何使用 python SDK 更正触发计数窗口 Problem 我正在尝试创建一个用于转换和索引维基百科转储的管道 目标是 从压缩文件中读取 只需一个进程并以流式传输方式 因为该文件不适合 RAM 并行处理每个元素 ParDo
python3x
Streaming
ApacheBeam
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException
我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中 它执行 https 调用 想想 REST API 在我的本地环境中 所有这些都可以在 DirectRun 中正常运行 这是我的本地环境 apache beam 2
Java
SSL
googlecloudplatform
googleclouddataflow
ApacheBeam
究竟是什么在管理光束中的水印?
Beam 的强大功能来自于它先进的窗口功能 但它也有点令人困惑 在本地测试中看到一些奇怪的情况 我使用rabbitmq作为输入源 其中消息并不总是得到ackd 并修复了不总是关闭的窗口 我开始挖掘 StackOverflow 和 Beam
googleclouddataflow
ApacheBeam
ParDo 中的侧面输出 | Apache Beam Python SDK
由于该文档仅适用于 JAVA 我无法真正理解它的含义 它指出 虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值 但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
googleclouddataflow
ApacheBeam
Apache Beam 中的异步 API 调用
正如标题所说 我想使用 python 在 apache beam 中进行异步 API 调用 目前 我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF
python
pythonrequests
pythonasyncio
googleclouddataflow
ApacheBeam
旁加载静态数据
在 ParDo 中处理数据时 我需要使用存储在 Google Cloud Storage 上的 JSON 架构 我想这可能是侧面加载 我读了他们称之为文档的页面 https beam apache org releases pydoc 2
python3x
googleclouddataflow
ApacheBeam
如何从数据流中的PCollection读取bigQuery
我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
googlebigquery
googleclouddataflow
ApacheBeam
可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗?
我有一个将数据写入 Google Cloud pubsub 的应用程序 根据 pubsub 的文档 由于重试机制而导致的重复偶尔可能会发生 还有消息乱序的问题 这在 pubsub 中也得不到保证 另外 根据文档 可以使用 Google Cl
MessageQueue
googleclouddataflow
ApacheBeam
googlecloudpubsub
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用
我有一个数据流作业 我将首先从 bigquery 查询中读取 在标准 sql 中 它在直接运行模式下完美运行 但是 我尝试在数据流运行程序模式下运行此数据流并遇到此错误 响应 content 显然 use standard sql 参数在数
googlebigquery
googleclouddataflow
ApacheBeam
dataflow
是否可以使用 Apache Beam / Google Cloud Dataflow 从 Azure EventHub 主题进行消费?
Problem 我们希望使用 Google Cloud 中的数据流管道来使用 Azure 中的 EventHub 主题 Question 是否知道 KafkaIO 是否允许直接在 Apache Beam Google Cloud 数据流作业
使用 Apache Beam 查找 2 个列表的笛卡尔积
我有2个PCollections PCollection
Java
list
Collections
ApacheBeam
cartesianproduct
在 Dataflow Python flex 模板中包含另一个文件 ImportError
是否有一个包含多个文件的 Python Dataflow Flex 模板示例 其中脚本导入同一文件夹中包含的其他文件 我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
python
googlecloudplatform
googleclouddataflow
ApacheBeam
数据流中的值错误:GCS 位置无效:无
我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow
在 DataFlow 管道中,按键分组后的简单计数步骤非常慢
我有一个 DataFlow 管道尝试构建索引 键值对 并计算一些指标 例如每个键的值数量 输入数据总计约 60 GB 存储在 GCS 上 管道分配了约 126 个工作线程 根据 Stackdriver 所有工作线程的 CPU 利用率约为 6
googleclouddataflow
ApacheBeam
Python Apache Beam 多重输出和处理
I am trying to run a job on Google Dataflow with the following process flow 本质上采用单个数据源 根据字典中的某些值进行过滤 并为每个过滤条件创建单独的输出 我编写
python
ApacheBeam
数据流/apache beam 窗口中字节数的触发窗口
我有一个简单的工作 将数据从 pub sub 移动到 gcs pub sub 主题是一个共享主题 具有许多不同大小的不同消息类型 我希望结果在 GCS 中相应地垂直分区 架构 版本 年 月 日 该父键下应该是当天的一组文件 并且文件的大小应
scala
googleclouddataflow
ApacheBeam
spotifyscio
优化内存密集型数据流管道的 GCP 成本
我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本 我们构建了一个内存密集型 Apache Beam 管道 每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机
googlecloudplatform
googleclouddataflow
ApacheBeam
Google Cloud Dataflow:通过命令行参数指定 TempLocation
我尝试通过将其作为命令行中的选项传递来指定我的 GCS 临时位置 如下所示 java jar pipeline 0 0 1 SNAPSHOT jar runner DataflowRunner project
googlecloudplatform
googlecloudstorage
googleclouddataflow
ApacheBeam
Apache Beam - Bigquery 流插入显示 RuntimeException:ManagedChannel 分配站点
我正在 Google Dataflow 中运行流式 Apache Beam 管道 它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中 它抛出了大量警告 java lang RuntimeEx
googlebigquery
googleclouddataflow
ApacheBeam
«
1
2
3
4
5
6
7
»