Apache Beam 云数据流流卡住侧输入

2023-11-24

我目前正在 GCP Dataflow 中构建 PoC Apache Beam 管道。在本例中，我想使用来自 PubSub 的主输入和来自 BigQuery 的侧输入创建流式传输管道，并将处理后的数据存储回 BigQuery。

侧管线代码

side_pipeline = (
    p
    | "periodic" >> PeriodicImpulse(fire_interval=3600, apply_windowing=True)
    | "map to read request" >>
        beam.Map(lambda x:beam.io.gcp.bigquery.ReadFromBigQueryRequest(table=side_table))
    | beam.io.ReadAllFromBigQuery()
)

侧面输入代码功能

def enrich_payload(payload, equipments):
    id = payload["id"]
    for equipment in equipments:
        if id == equipment["id"]:
            payload["type"] = equipment["type"]
            payload["brand"] = equipment["brand"]
            payload["year"] = equipment["year"]

            break

    return payload

主管道代码

main_pipeline = (
    p
    | "read" >> beam.io.ReadFromPubSub(topic="projects/my-project/topics/topiq")
    | "bytes to dict" >> beam.Map(lambda x: json.loads(x.decode("utf-8")))
    | "transform" >> beam.Map(transform_function)
    | "timestamping" >> beam.Map(lambda src: window.TimestampedValue(
        src,
        dt.datetime.fromisoformat(src["timestamp"]).timestamp()
    ))
    | "windowing" >> beam.WindowInto(window.FixedWindows(30))
)

final_pipeline = (
    main_pipeline
    | "enrich data" >> beam.Map(enrich_payload, equipments=beam.pvalue.AsIter(side_pipeline))
    | "store" >> beam.io.WriteToBigQuery(bq_table)
)

result = p.run()
result.wait_until_finish()

将其部署到 Dataflow 后，一切看起来都很好，没有错误。但后来我注意到enrich data步骤有两个节点而不是一个。

And also, the side input stuck as you can see it has Elements Added with 21 counts in Input Collections and - value in Elements Added in Output Collections.

您可以找到完整的管道代码here

我已经遵循这些文档中的所有说明：

https://beam.apache.org/documentation/patterns/side-inputs/
https://beam.apache.org/releases/pydoc/2.35.0/apache_beam.io.gcp.bigquery.html

但还是发现了这个错误。请帮我。谢谢！

这里有一个工作示例：

mytopic = ""
sql = "SELECT station_id, CURRENT_TIMESTAMP() timestamp FROM `bigquery-public-data.austin_bikeshare.bikeshare_stations` LIMIT 10"

def to_bqrequest(e, sql):
    from apache_beam.io import ReadFromBigQueryRequest
    yield ReadFromBigQueryRequest(query=sql)
     

def merge(e, side):
    for i in side:
        yield f"Main {e.decode('utf-8')} Side {i}"

pubsub = p | "Read PubSub topic" >> ReadFromPubSub(topic=mytopic)

side_pcol = (p | PeriodicImpulse(fire_interval=300, apply_windowing=False)
               | "ApplyGlobalWindow" >> WindowInto(window.GlobalWindows(),
                                           trigger=trigger.Repeatedly(trigger.AfterProcessingTime(5)),
                                           accumulation_mode=trigger.AccumulationMode.DISCARDING)
               | "To BQ Request" >> ParDo(to_bqrequest, sql=sql)
               | ReadAllFromBigQuery()
            )

final = (pubsub | "Merge" >> ParDo(merge, side=beam.pvalue.AsList(side_pcol))
                | Map(logging.info)
        )                    
    
p.run()

请注意，这使用了GlobalWindow（以便两个输入具有相同的窗口）。我使用了处理时间触发器，以便该窗格包含多行。5是任意选择的，使用1也会起作用的。

请注意，侧输入和主输入之间的数据匹配是不确定性，您可能会看到旧的触发窗格中的值波动。

理论上，使用FixedWindows应该解决这个问题，但我无法得到FixedWindows上班。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googleclouddataflow

ApacheBeam

Apache Beam 云数据流流卡住侧输入的相关文章

在tensorflow中使用估计器API进行训练时出错

我正在尝试运行一个简单的SVM通过使用 input fn 返回一个数据来对 iris 数据集进行分类tf data dataset对象但我遇到了以下错误 Traceback most recent call last File tf te
使用seaborn，我如何在散点图上画一条我选择的线？

我希望能够在seaborn 生成的图中画出一条符合我规范的线我选择的图是 JointGrid 但任何散点图都可以我怀疑seaborn可能不容易做到这一点以下是绘制数据的代码来自 Iris 数据集的花瓣长度和花瓣宽度的数据帧 impo
当鼠标悬停时使用 matplotlib 注释绘图的线条[重复]

这个问题在这里已经有答案了我想在鼠标悬停时在绘图上注释不同的线这里用点进行相同的操作当鼠标悬停在 matplotlib 中的某个点上时可以显示标签吗 https stackoverflow com questions 7908636 p
Python XLWT调整列宽

XLWT 的易用性给我留下了深刻的印象但有一件事我还没有弄清楚该怎么做我正在尝试将某些行调整为显示所有字符所需的最小宽度换句话说如果双击单元格之间的分隔线 excel 会做什么我知道如何将列宽调整为预定量但我不确定如何确定显示所
Python2 math.fsum 不准确？

我正在使用 python2 数学模块来计算 fsum 的总和据我所知 0 1通常不能存储二进制据我了解 math fsum 应该以某种方式解决这个问题 import math math fsum 0 0 0 1 0 1 math fsu
如何显示 pymongo.errors.OperationFailure 详细信息？

写入 MongoDB 时我在 python 中遇到 pymongo OperationsFailure 除了回溯之外还有没有办法打印出详细信息或代码属性另请参阅 http api mongodb org python current
Python Turtle 中的 onkeypress() 和 Listen() 问题

我的一个功能有问题我使用 Python 3 7 当我尝试使用onkeypress 函数什么也没有发生我尝试检查它但是当我按键时乌龟模块没有反应我尝试使用 w 键向上移动桨但这不起作用以下是我的 py 文件 main py im
来自 yahoo 的 python lxml etree 小程序信息

雅虎财经更新了他们的网站我有一个 lxml etree 脚本用于提取分析师建议然而现在分析师的建议已经存在但只是以图表的形式出现你可以看到一个例子这一页 https finance yahoo com quote CSX ana
如何在不使用pygame的情况下检测按键事件和按键按住事件

我目前正在寻找一个能够检测监视键盘的库我的目的是检测何时按下某个键以及当它发生时应该发生一些事情大多数 SO 帖子建议使用 pygame 但我发现它有点太多了涉及一个像这样的库来完成这个简单的任务我也尝试过pynput 这导致只
如何有效地找到两个轮廓集之间的所有交点

我想知道找到两组轮廓线之间所有交点舍入误差的最佳方法哪种方法最好这是示例 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 500 X Y np
matplotlib 示例代码不适用于 python 虚拟环境

我正在尝试在 matplotlib 中显示图像的 x y z 坐标示例代码 http matplotlib org examples api image zcoord html在全局 python 安装上工作得很好当我移动光标时 x y
tkinter - 在askopenfile期间检索文件名

我有一个用 Python 和 tkinter 制作的文本编辑器这是我的打开文件方法 def onOpen self file askopenfile filetypes Text files txt txt file read sel
我可以使用对象（类的实例）作为 Python 中的字典键吗？

我想使用类实例作为字典键例如 classinstance class dictionary classinstance hello world Python似乎无法将类作为字典键处理还是我错了另外我可以使用像 classinstan
Python Selenium 将内容添加到 pandas 数据帧

我正在尝试循环list用于抓取内容的邮政编码this url http kadastralekaart com 但我面临着错误例如TimeoutException and StaleElementReferenceException 我该
Python 中 Javascript 的 reduce()、map() 和 filter() 的等价物是什么？

Python 的等价物是什么 Javascript function wordParts currentPart lastPart return currentPart lastPart word Che mis try console l
Numpy 相当于 if/else 不带循环

有没有任何Pythonic方法可以删除下面代码中的for循环和if else 此代码迭代 NumPy 数组并检查条件并根据条件更改值 gt gt gt import numpy as np gt gt gt x np random rand
从线程队列中获取所有项目

我有一个线程将结果写入队列在另一个线程 GUI 中我定期在 IDLE 事件中检查队列中是否有结果如下所示 def queue get all q items while 1 try items append q get nowai
Python Blowfish 加密

由于我对 Java 的了解不完整我正在努力将此加密代码转换为 Python 代码两者应该得到完全相同的结果帮助将不胜感激 Java函数 import javax crypto Cipher import javax crypto sp
从 NumPy、matplotlib 包导入 python 子模块有什么区别[重复]

这个问题在这里已经有答案了当我尝试使用时pyplot from matplotlib import matplotlib print matplotlib pyplot just checking 它给了我AttributeError m
使用 Python 和 lxml 从 HTML 中删除类属性

Question 如何使用 python 和 lxml 从 html 中删除类属性 Example I have p class DumbClass Lorem ipsum dolor sit amet consectetur adipis

随机推荐

如何将计算列添加到我的 EF4 模型？

给定 MS SQL 2008 中的用户表和登录表 CREATE TABLE dbo User User UserID int IDENTITY 1000 1 NOT NULL UserName varchar 63 NOT NULL
如何解决读取问候语数据包时出现错误？

我正在尝试连接到 NetBeans 中的服务器我写的代码如下运行此代码会返回此错误 wlecome Warning mysqli connect MySQL server has gone away in C xampp htdocs
C 和 C++ 中的 static 和 extern 全局变量

我制作了 2 个项目第一个项目使用 C 语言第二个项目使用 C 语言两者都具有相同的行为 C项目 header h int varGlobal 7 main c include
在 C++ 中，如何在运行时获取给定元素的模板类型？

我正在设计一个简单的Array类能够保存任何类型的对象就像一个向量可以在一个对象中保存多种类型的数据这是为了学习目的我有一个名为的空基类Container class Container 还有一个名为的模板化子类Object temp
Flex 项目在 Chrome 和 IE11 中重叠

我正在尝试创建一个固定高度的 Flexbox 布局当内部内容太大时它会滚动内部内容另外如果内容不会导致滚动我想修复一个带有按钮的 div 到容器底部我有一个在 Firefox 中完美运行的布局但在 Chrome 中当底部按钮
替换单列值

如何替换数据框单列中的值例如 dataz 列中的所有 0 值均变为 1 datay dataz 1 0 100 2 2 101 3 3 102 4 4 103 5 10 0 6 11 0 7 0 0 8 0 0 9 0 0 10 12 1
检查函数参数的最佳方法？ [关闭]

Closed 这个问题是基于意见的目前不接受答案 Locked 这个问题及其答案是locked因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动我正在寻找一种有效的方法来检查 Python 函数的变量例如我想检查参数类
TaskCancellationException 如何避免成功控制流上的异常？

在我们的应用程序中我们大量使用异步等待和任务因此它确实大量使用 Task Run 有时使用内置的取消支持CancellationToken public Task DoSomethingAsync CancellationToken
使用二叉索引树进行 RMQ 扩展

The RMQ问题可以这样扩展给定的是一个数组n整数A 查询 x y 给定两个整数 1 x y n 找到最小值A x A x 1 A y 更新 x v 给定一个整数v且 1 x n do A x v 这个问题可以解决O log n 对于这
当我为 Android RatingBar 使用自定义星星时，对于低于 0.5 的小数值始终显示半星

我查了很多帖子例如Android RatingBar更改星星颜色更改评级栏中星星的颜色其中评级栏是在android中动态创建的如何设置评分栏的星星颜色以更改评级栏中星星的颜色我关注了这些帖子并且能够更改自定义评级栏的星星但在
HTML5 视频上一个 - 下一个和自动播放

我是这个网站的新手也是 HTML5 和 Javascript 的新手并不是说我是初学者当我看到它时我有点了解 HTML5 和 Javascript 只是我自己无法正确编写它我有很多视频都是 mp4 大小相同都在服务器上的同一个
我应该如何使用区域获取 aws 区域名称

您好我想使用区域手段获取亚马逊网络服务 aws 区域名称 region is us east 1 region name is US East N Virginia region is us west 2 region name is U
Spring-Data-Elasticsearch 在底层使用什么 Elasticsearch 客户端？

我想在我的项目中使用 Spring Data Elasticsearch 我看到了这个 The well known TransportClient is deprecated as of Elasticsearch 7 0 0 and i
新 Ember 路由器的访问实例

如何访问新 Ember 路由器的实例 API 文档似乎是指旧路由器或不正确 http emberjs com api classes Ember Router html RouterV2 不容易通过全局常量访问这使得以错误方式做事变得
使用 Base64UrlEncode 语句[关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我正在尝试通过代码发送电子邮件但遇到了障碍我当时正在工作this当 Base64UrlEncode 显示为红色时我的代码中有相同的 using 语句 using Sys
电话号码国家代码列表[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案 Locked 这个问题及其答案是locked因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动 On this 维基百科条目我发现国际
回形针附件文件大小

如何获取回形针附件每种样式的文件大小 user attachment file size似乎不起作用 user attachment style size 给出与实际文件大小无关的数字我没有找到如何获取文件大小对于给定的风格除了原来的
在boost中定义斐波那契堆的比较函数

我需要在我的项目中使用斐波那契堆并且我正在尝试从 boost 库使用它但我无法弄清楚如何为任意数据类型设置用户定义的比较函数我需要为结构节点构造一个最小堆定义如下 struct node int id int weight stru
标识符为“”的应用程序 ID 不可用。请输入不同的字符串

我正在尝试添加新的 APP ID 来准备 App Store 提交但在我提供的捆绑包 ID 下出现以下错误带有标识符的应用程序 ID com domainName AppName 不可用请输入不同的字符串这是什么意思我正在尝试添加
Apache Beam 云数据流流卡住侧输入

我目前正在 GCP Dataflow 中构建 PoC Apache Beam 管道在本例中我想使用来自 PubSub 的主输入和来自 BigQuery 的侧输入创建流式传输管道并将处理后的数据存储回 BigQuery 侧管线代码 si

Apache Beam 云数据流流卡住侧输入

Apache Beam 云数据流流卡住侧输入 的相关文章

随机推荐

热门标签

Apache Beam 云数据流流卡住侧输入的相关文章