Beam Streaming 管道不会将文件写入存储桶

2023-11-29

UI 在 GCP Dataflow 上有一个 python 流管道，可以从 PubSub 读取数千条消息，如下所示：

    with beam.Pipeline(options=pipeline_options) as p:
      lines = p | "read" >> ReadFromPubSub(topic=str(job_options.inputTopic))
      lines = lines | "decode" >> beam.Map(decode_message)
      lines = lines | "Parse" >> beam.Map(parse_json)
      lines = lines | beam.WindowInto(beam.window.FixedWindows(1*60))
      lines = lines | "Add device id key" >> beam.Map(lambda elem: (elem.get('id'), elem))
      lines = lines | "Group by key" >> beam.GroupByKey()
      lines = lines | "Abandon key" >> beam.Map(flatten)
      lines | "WriteToAvro" >> beam.io.WriteToAvro(job_options.outputLocation, schema=schema, file_name_suffix='.avro', mime_type='application/x-avro')

管道运行得很好，只是它从不产生任何输出。有什么想法吗？

您的代码似乎存在一些问题。首先，有一些关于 null/None（您已经修复）和 ints/floats（在注释中指出）的格式错误的数据。最后，写入Avro转换无法写入无限的 PCollection。有一个解决方法，您可以在其中定义一个新的sink并将其与写入文件能够写入无界 PCollection 的转换。

请注意，截至撰写本文时 (2020-06-18)，此方法不适用于 Apache Beam Python SDK BEAM-6522）。在这种情况下，这会强制解决方案改用 FastAvro。如果手动升级 dill 则可以使用 Avro 至 >= 0.3.1.1andAvro >= 1.9.0，但要小心，因为目前尚未测试。

解决方法如下：

from apache_beam.io.fileio import FileSink
from apache_beam.io.fileio import WriteToFiles
import fastavro

class AvroFileSink(FileSink):
    def __init__(self, schema, codec='deflate'):
        self._schema = schema
        self._codec = codec

    def open(self, fh):
        # This is called on every new bundle.
        self.writer = fastavro.write.Writer(fh, self._schema, self._codec)

    def write(self, record):
        # This is called on every element.
        self.writer.write(record)

    def flush(self):
        self.writer.flush()

这个新水槽的使用方式如下：

import apache_beam as beam

# Replace the following with your schema.
schema = fastavro.schema.parse_schema({
    'name': 'row',
    'namespace': 'test',
    'type': 'record',
    'fields': [
        {'name': 'a', 'type': 'int'},
    ],
})

# Create the sink. This will be used by the WriteToFiles transform to write
# individual elements to the Avro file.
sink = AvroFileSink(schema=schema)

with beam.Pipeline(...) as p:
    lines = p | beam.ReadFromPubSub(...)
    lines = ...

    # This is where your new sink gets used. The WriteToFiles transform takes
    # the sink and uses it to write to a directory defined by the path 
    # argument.
    lines | WriteToFiles(path=job_options.outputLocation, sink=sink)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Beam Streaming 管道不会将文件写入存储桶的相关文章

为什么Python 3中实例方法可以作为类方法调用？

考虑下面的类 class Foo object def bar self print self 在Python 2中 2 7 13 调用bar 作为类方法引发异常 gt gt gt Foo bar hello Traceback most
有什么理由不在Python中混合使用多处理和线程模块

我正在考虑使用Python来实现一个需要大量多线程的程序另一个要求是它将在桌面上运行因此拥有许多进程将使应用程序显得混乱且难以杀死在任务管理器中因此我正在考虑使用线程和多处理模块来减少进程数量据我了解 GIL 仅适用于单个进程
如何使用授权 API 设置部分身份验证

好的我正在通过 Authorize net API 设置部分付款以便能够使用多张卡支付单笔余额费用我假设他们的部分身份验证功能涵盖了我的用例但在测试中我可以在此处使用 API 实时控制台向您展示一个问题 https develo
Tensorflow：导入错误：libcudnn.so.7：无法打开共享对象文件：没有这样的文件或目录

我最近使用 pip 安装了tensorflow gpu 但是当我导入它时出现以下错误 ImportError libcudnn so 7 cannot open shared object file No such file or dir
TypeError：无法在 re.findall() 中的类似字节的对象上使用字符串模式

我正在尝试学习如何自动从页面获取网址在下面的代码中我试图获取网页的标题 import urllib request import re url http www google com regex r pattern re compile
Python 字典不按顺序排列

我创建了一个字母表字典其值从0开始并根据单词文件增加一定的量我对最初的字典进行了硬编码我希望它保持按字母顺序排列但事实并非如此我希望它按字母顺序返回字典基本上与初始字典保持相同我怎样才能保持秩序 from wordData
如何在Python中比较枚举？

从 Python 3 4 开始 Enum类存在我正在编写一个程序其中一些常量具有特定的顺序我想知道哪种方式最适合比较它们 class Information Enum ValueOnly 0 FirstDerivative 1 Sec
哪些 2to3 修复程序输出有效的 Python 2 代码？

2to3 是一个 Python 程序它读取 Python 2 x 源代码并应用一系列修复程序将其转换为有效的 Python 3 x 代码考虑一下列出的四十个修复者https docs python org 3 library 2to3
发送fulfillmentText并使用followupEventInput转移到另一个意图

我使用 Python Flask 设置了一个简单的 Webhook 来处理各种 Dialogflow 功能在这一点上一切都进展顺利该机器人通过 DialogFlow API V2 集成到 Facebook Messenger 问题是关
通过一个正则表达式以任意顺序匹配多个单词

如标题中所述我想要正则表达式它将根据我的查询按顺序给出结果 line VERSION OTHER POWER LOW FREQ OFF MAXTUN BLER 示例1 re findall r FREQ VERSION line r
赋值运算符左/右侧的不同切片行为

作为一个来自 C 背景的 Python 新手 Python 3 4 x 中的切片运算符对我来说看起来很荒谬我只是不明白特殊规则背后的设计理念让我解释一下为什么我说它特别一方面根据 Stack Overflow 的回答here
ModuleNotFoundError：没有名为“pandas.io.formats.csvs”的模块

我正在尝试创建一个简单的 csv dataframe to csv psv file name encoding utf 8 header True sep doublequote True quoting csv QUOTE ALL in
使用 python-3.x 从 zip 存档中读取 CSV 文件

我有一个压缩档案其中包含几个csv files 例如假设myarchive zip包含myfile1 csv myfile2 csv myfile3 csv In python 2 7我能够迭代加载所有myfiles in pandas
将 async-for 与 if 条件结合起来以中断中间等待的正确方法是什么？

如果我有一个协程正在消耗异步生成器中的项目那么从外部条件终止该循环的最佳方法是什么考虑到这一点 while not self shutdown event is set async with self external lib cl
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

隐式索引匹配pandas用于不同之间的操作DataFrame Series很棒而且大多数时候它都有效但是我偶然发现了一个无法按预期工作的示例 import pandas as pd 0 21 0 import numpy as np
数据帧中标志切换之间的行的总和/平均值

我有一个像这样的数据框 id power flag 0 20 0 1 25 0 2 26 1 3 30 1 4 18 0 5 30 0 6 19 0 7 21 1 8 23 0 我正在尝试获取行的平均值总和power柱子输出应该是这样的
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name

随机推荐

在标量矩阵加法中使用 vaddss 代替 adds 有什么好处？

我已经实现了标量矩阵加法内核 include
Ping 脚本不导出结果

有人可以告诉我我做错了什么吗尝试让 ping 脚本运行文本文件中的一堆 IP 写入 Alive 或 Dead 并将结果写入 txt 文件我让它运行 put 不会在 txt 文件中输入任何内容最终目标是我希望在表格中以绿色或红色输出但
如何查明我的 C++ 应用程序在 Mac 上使用了多少内存

我的应用程序中的某些操作使用的内存比我想象的要多我想记录当前的内存使用情况以帮助识别它们是哪些是否有系统调用可以返回当前使用的内存量以下 C 函数返回进程 pid 的 CPU 时间和驻留内存要获取其他进程的资源需要root权限您
问题：如何在 C++ MFC 中将 CString 转换为 const char *

如何将 CString 转换为 const char 我已经尝试了互联网上找到的所有内容但仍然无法转换它们请帮忙谢谢 CString 直接转换为 const char CString temp temp Wow const char
codeigniter 和 cpanel 安装

我对将 codeigniter 移动到我的网络服务器完全陌生但我在配置方面遇到了问题我应该将我的 codeigniter 项目文件夹放在 myurl com 下 www 的根目录中的什么位置我应该移出应用程序和系统文件夹吗我正在尝试
Spring + Maven + Hadoop

我在 Spring Maven Hadoop 环境中遇到问题我正在使用 Apache Hadoop 但不使用 SpringSource 提供的 spring hadoop 我向 Maven 添加了以下依赖项以便在 java 中使用 ha
我可以将哪些服务器端 PDF 渲染组件与 .NET、PHP、Ruby 等一起使用？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我需要一个服务器端 PDF 组件它可以渲染和流式传输 PDF 文档而无需依赖客户端上的附加组件和插件该组件需要具有与 Adob e Reade
OSX 10.11 上的 OpenMP 支持，gcc 错误“未找到文件 omp.h”

我一直使用gcc版本5 3 0 它说它带有 openmp 支持但是每次当我使用 gcc 通过终端或通过 xCode 7 编译程序时我都会收到相同的错误找不到文件 omp h 我在这个问题上搜索了太多并尝试了几乎所有我发现的东西首
使用“notify()”和“wait()”代替“suspend()”和“resume()”来控制线程

我正在尝试学习如何在java中暂停和恢复线程我正在使用一个Applet that implements Runnable有2个按钮开始和停止 public void init th new Thread this th start
被释放的指针未分配（删除数组中的一个元素）

我是 oop 的初学者这是我的问题 int main int p new int 3 p 0 1 p 1 2 p 2 3 int q p p here delete p and int main int p new int 3 p 0 1
如何在magento中获取属性组

我需要获取某个属性集的属性组我该怎么做我想我获得了属性组 ID 但我似乎无法获得该组的属性 attributes product gt getAttributes foreach attributes as attribute grou
QueryDSL-maven-您需要使用 JDK 运行构建或在类路径上有 tools.jar

我有同样的问题this 我已经尝试了两种解决方案但没有一个对我有用我从它复制了 querydsl 的配置github page 所以我的 querydsl maven 依赖项
与 f:ajax 和 ui:repeat 一起使用时，不会调用 h:commandLink actionlistener

与 f ajax 和 ui repeat 一起使用时不会调用 h commandLink actionlistener 当我单击链接时我必须在 bean 的 onload 方法中传递一个参数并刷新面板组 assist 当我使用 comm
BASH SHELL：使用 awk，带分隔符，2 个搜索词

我对 BASH Shell 编程非常陌生这是我的问题我需要从文件中分割数据使用分号分隔符并搜索某本书是否存在文件内容 Harry Potter The Half Blood Prince J K Rowling 40 30 10
升级到 gradle 3.+ 时出现应用程序 build.gradle 同步问题

我正在更新一个项目其中包含许多不同的库和风格我能够解决项目中的所有库但在更新应用程序 build gradle 时遇到问题下面是错误和 gradle 的我显然误解了文档无法找到正确的解决方案如何在应用程序 build grad
Laravel 的分页到底是如何工作的？

我需要一些关于 Laravel 分页在后台如何工作的澄清假设我有一个包含 1000 行的表我使用 results Model paginate 100 如果我理解正确的话 Eloquent 会带回一个包含表中所有行 1000 的集合将
同时运行两个版本的java [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我必须使用两个版本的java 1 6 21和1 7 我公司的代码依赖于1 6 21 我们计划使用artifactory 我们正在本地测试artifactory 但是artifacto
MvvmCross：如何在 iPhone 上的 iOS 7 中强制 MvxViewController 的特定方向

在我的 iOS 7 应用程序上我只允许整个应用程序的支持的设备方向为纵向除非我需要在视频播放器视图上允许横向方向如何使用 MvvmCross 或 MvxViewController 做到这一点我尝试设置那些 Shoul
ios 7 中的重大位置更改事件 - 后台服务调用

我在我的应用程序中使用重要的位置服务如果我的应用程序被系统杀死或被用户强制关闭使用重大位置更改服务事件我将位置数据发送到我的服务器在 iOS 6 中在 iOS6 中我的应用程序在强制关闭后也会将数据发送到服务器但在 iOS 7
Beam Streaming 管道不会将文件写入存储桶

UI 在 GCP Dataflow 上有一个 python 流管道可以从 PubSub 读取数千条消息如下所示 with beam Pipeline options pipeline options as p lines p read

Beam Streaming 管道不会将文件写入存储桶

Beam Streaming 管道不会将文件写入存储桶 的相关文章

随机推荐

热门标签

Beam Streaming 管道不会将文件写入存储桶的相关文章