是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？

2024-04-03

在我的项目中，我希望在 Google Dataflow 中使用流式传输管道来处理 Pub/Sub 消息。在清理输入数据时，我还希望获得来自 BigQuery 的侧面输入。这提出了一个问题，将导致两个输入之一无法工作。

我在管道选项中设置了streaming=True，这允许正确处理Pub/Sub输入。但 BigQuery 与流式传输管道不兼容（请参阅下面的链接）：

https://cloud.google.com/dataflow/docs/resources/faq#what_are_the_current_limitations_of_streaming_mode https://cloud.google.com/dataflow/docs/resources/faq#what_are_the_current_limitations_of_streaming_mode

我收到此错误：“ValueError：Cloud Pub/Sub 目前仅可在流式处理管道中使用。”基于局限性，这是可以理解的。

但我只想使用 BigQuery 作为侧面输入，以便将数据映射到传入的 Pub/Sub 数据流。它在本地运行良好，但是一旦我尝试在 Dataflow 上运行它，它就会返回错误。

有没有人找到一个好的解决方法？

编辑：添加下面我的管道框架以供参考：

# Set all options needed to properly run the pipeline
options = PipelineOptions(streaming=True,
                          runner='DataflowRunner', 
                          project=project_id)

p = beam.Pipeline(options = options)

n_tbl_src = (p
         | 'Nickname Table Read' >> beam.io.Read(beam.io.BigQuerySource(
            table = nickname_spec
        )))

# This is the main Dataflow pipeline. This will clean the incoming dataset for importing into BQ.
clean_vote = (p
              | beam.io.gcp.pubsub.ReadFromPubSub(topic = None,
                                     subscription = 'projects/{0}/subscriptions/{1}'
                                                  .format(project_id, subscription_name),
                                     with_attributes = True)
              | 'Isolate Attributes' >> beam.ParDo(IsolateAttrFn())
              | 'Fix Value Types' >> beam.ParDo(FixTypesFn())
              | 'Scrub First Name' >> beam.ParDo(ScrubFnameFn())
              | 'Fix Nicknames' >> beam.ParDo(FixNicknameFn(), n_tbl=AsList(n_tbl_src))
              | 'Scrub Last Name' >> beam.ParDo(ScrubLnameFn()))


# The final dictionary will then be written to BigQuery for storage
(clean_vote | 'Write to BQ' >> beam.io.WriteToBigQuery(
    table = bq_spec,
    write_disposition = beam.io.BigQueryDisposition.WRITE_APPEND,
    create_disposition = beam.io.BigQueryDisposition.CREATE_NEVER
))

# Run the pipeline
p.run()

@Pablo 上面的评论是正确的答案。对于遇到相同情况的任何人，以下是我的脚本中有效的更改。

# This opens the Beam pipeline to run Dataflow
p = beam.Pipeline(options = options)
logging.info('Created Dataflow pipeline.')

# This will pull in all of the recorded nicknames to compare to the incoming PubSubMessages.

client = bigquery.Client()
query_job = client.query("""
    select * from `{0}.{1}.{2}`""".format(project_id, dataset_id, nickname_table_id))
nickname_tbl = query_job.result()
nickname_tbl = [dict(row.items()) for row in nickname_tbl]

# This is the main Dataflow pipeline. This will clean the incoming dataset for importing into BQ.
clean_vote = (p
              | beam.io.gcp.pubsub.ReadFromPubSub(topic = None,
                                     subscription = 'projects/{0}/subscriptions/{1}'
                                                  .format(project_id, subscription_name),
                                     with_attributes = True)
              | 'Isolate Attributes' >> beam.ParDo(IsolateAttrFn())
              | 'Fix Value Types' >> beam.ParDo(FixTypesFn())
              | 'Scrub First Name' >> beam.ParDo(ScrubFnameFn())
              | 'Fix Nicknames' >> beam.ParDo(FixNicknameFn(), n_tbl=nickname_tbl)
              | 'Scrub Last Name' >> beam.ParDo(ScrubLnameFn()))


# The final dictionary will then be written to BigQuery for storage
(clean_vote | 'Write to BQ' >> beam.io.WriteToBigQuery(
    table = bq_spec,
    write_disposition = beam.io.BigQueryDisposition.WRITE_APPEND,
    create_disposition = beam.io.BigQueryDisposition.CREATE_NEVER
))

# Run the pipeline
p.run()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googlecloudplatform

googlebigquery

googleclouddataflow

是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

查找数字数组中两个最近元素之间的距离

所以我正在自学我购买的这本书中的算法并且我有一个伪代码用于查找数字数组中两个最近元素之间的距离 MinDistance a 0 n 1 Input Array A of numbers Output Minimum Distance be
在文件下载响应时重新启用表单提交按钮

这可能是一个非常简单的问题但实际上我还没有看到很多这方面的搜索结果我在表单中有一个非常基本的提交按钮它接受一些用户输入并在服务器的临时目录中生成一个可下载文件然后提示用户下载该文件然后在提交时禁用该文件
Rails：生产中不存在可供参考的类名关系

我在迁移中创建了两个引用它们是对我的 User 表的引用的别名 class CreateInvitations lt ActiveRecord Migration 5 0 def change create table invitatio
ALS模型-如何生成full_u * v^t * v？

我试图弄清楚 ALS 模型如何在批处理更新期间预测新用户的值在我的搜索中我遇到了这个堆栈溢出答案 https stackoverflow com a 34729751 1033422 为了方便读者我将答案复制如下您可以使用经过训练的
如何在链轮预处理的 js 文件（不是视图）中获取 escape_javascript 和其他帮助程序？

我正在使用 Rails 3 1 和链轮的东西我想使用 ERB 预处理 js 文件然后使用 javascript include tag 包含该文件它是从代码生成的因此我使用 ERB 对其进行预处理但我无法从 ActionView
合并从 python 多进程调用函数返回的数据帧

from multiprocessing import Pool with Pool processes 6 as p p starmap update tabl zip r 我正在使用此处概述的方法 https web archive o
使用回调令牌的 PHP EWS

有没有人有幸使用 EWS 回调令牌而不是用户名密码对来自 PHP 的 EWS SOAP 请求进行身份验证我一直在看PHP EWS https github com jamesiarmes php ews当您在谷歌上搜索此项目时会出现该项
带下拉图标 V 形的 Bootstrap 手风琴导航

我有一个引导导航选项卡导航堆叠列表需要使用手风琴折叠所有列表除了最近单击的列表或具有活动子项的列表我有这个工作但似乎无法弄清楚如何让 V 形改变方向除非点击我以前只是将其设置为折叠而不是手风琴折叠所以需要一些 javascr
如何以静默模式提取 WinZip 自解压 exe

我使用 WinZip Self Extractor 创建了一个 exe 文件它以 UI 模式提取文件即双击安装程序时会打开一个新窗口显示正在解压缩 setupname exe 我需要在静默模式下提取相同的 exe 该模式不应显示解压缩
使用内部脚本设置innerHTML [重复]

这个问题在这里已经有答案了如果我在任何页面上的 Firebug 中运行以下行 document documentElement innerHTML 为什么不是alert命令执行看起来你的
Perl：使用 XML::Twig 插入 XML::Twig 节点

我正在比较两个 XML 文件如果我发现其中一个文件中缺少节点我想将其插入到另一个文件中这是我一直在尝试的方法 my out file fbCI report xml open my fh out gt gt out file or d
Intellij“作为 Android 应用程序运行”缺失

android模拟器运行确实很慢我发现Genymotion运行得很快当我尝试与 Intellij 一起使用时在我遵循此文档中的每一步之后https cloud genymotion com page doc 我陷入了这个项目在您的应
如何在 Spring Data ES 3.2.0.M1 中使用高级 Rest 客户端

Spring Data ES 3 2 0 M1 仍然使用旧的TransportClient代替HighLevelRestClient Spring Data ES 3 2 0 M1 支持高级 Rest 客户端请参阅添加对 Java 高级
Android Web 浏览器主页

我见过一些应用程序和广告网络例如 startapp 通过代码更改 Android 网络浏览器主页这怎么可能我查看了startapp sdk 但我没有找到他们更改主页的部分我也看过BrowserSettings in com andr
Spring Batch 数据库连接不可用，请求超时

在使用 Spring Batch 进行项目的过程中我遇到了以下问题该项目包括 MySQL 数据库 mysqld 10 2 13 MariaDB Spring Boot 2 1 1 RELEASE 春季批次 4 1 0 RELEASE S
Laravel postgres sql 不区分大小写喜欢

我在 Laravel 中有一个 postgres sql 查询 query Article join users articles user id users id gt select users articles if array key
获取 Prolog 中的解决方案列表

我正在学习 Prolog 并且正在阅读一本名为人工智能 Prolog 编程的书作为练习我想学习如何扩展本书中的示例之一有人可以帮忙吗假设您有以下事实 parent pam bob pam is a parent of bob p
使用 Spring/Hibernate 进行密码加密 - Jasypt 还是其他？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案在数据访问层中使用 Spring 和 Hibernate JPA 的 Java 应用程序堆栈中应用密
SQL charindex 抛出由于句点而传递给 LEFT 或 SUBSTRING 函数的长度参数无效？

我的查询的 where 子句中有以下几行但我不断收到此错误 Msg 537 Level 16 State 3 Line 3 Invalid length parameter passed to the LEFT or SUBSTRING
是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？

在我的项目中我希望在 Google Dataflow 中使用流式传输管道来处理 Pub Sub 消息在清理输入数据时我还希望获得来自 BigQuery 的侧面输入这提出了一个问题将导致两个输入之一无法工作我在管道选项中设置了st

是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？

是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？ 的相关文章

随机推荐

热门标签

是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？的相关文章