Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能

2023-12-13

我们正在使用 Python SDK 在 google 数据流中运行日志文件解析作业。数据分布在数百个每日日志中，我们通过云存储中的文件模式读取这些日志。所有文件的数据量约为 5-8 GB（gz 文件），总共 50-8000 万行。

loglines = p | ReadFromText('gs://logfile-location/logs*-20180101')

此外，我们还有一个简单（小）的映射 csv，它将日志文件条目映射到人类可读的文本。大约有 400 行，5 kb 大小。

例如，带有 [param=testing2] 的日志文件条目应映射到最终输出中的“客户请求 14 天免费产品试用”。

我们在带有 sideinput 的简单 beam.Map 中执行此操作，如下所示：

customerActions = loglines | beam.Map(map_logentries,mappingTable)

其中map_logentries是映射函数，mappingTable是映射表。

然而，只有当我们通过 open() / read() 读取本机 python 中的映射表时，这才有效。如果我们通过 ReadFromText() 使用光束管道执行相同的操作，并将生成的 PCollection 作为侧输入传递到 Map，如下所示：

mappingTable = p | ReadFromText('gs://side-inputs/category-mapping.csv')    
customerActions = loglines | beam.Map(map_logentries,beam.pvalue.AsIter(mappingTable))

性能完全下降到每秒大约 2-3 个项目。

现在，我的问题是：

为什么性能会如此严重，通过考试有什么问题 PCollection 作为侧面输入？
如果可能不建议使用 PCollections 作为侧面输入，应该如何构建，例如需要可以/不应该硬编码到的映射的管道映射函数？

对于我们来说，映射确实经常变化，我需要找到一种方法让“普通”用户提供它。我们的想法是让映射 csv 在 Cloud Storage 中可用，并通过 ReadFromText() 将其简单地合并到管道中。在本地读取它涉及到向工作人员提供映射，因此只有技术团队可以做到这一点。

我知道侧面输入存在缓存问题，但这肯定不适用于 5kb 输入。

上面的所有代码都是伪代码，用于解释问题。对此的任何想法和想法将不胜感激！

为了更有效的侧面输入（小到中等尺寸），您可以使用beam.pvalue.AsList(mappingTable) since AsList使 Beam 实现数据，因此您确信您将获得该 pcollection 的内存列表。

旨在用于侧面参数规范——相同的地方其中使用了 AsSingleton 和 AsIter，但强制实现此 PCollection 作为列表。

Source: https://beam.apache.org/documentation/sdks/pydoc/2.2.0/apache_beam.pvalue.html?highlight=aslist#apache_beam.pvalue.AsList

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能的相关文章

如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更

随机推荐

如何为 json 负载定义 swagger 注释

如何为此示例定义 swagger 注释 API TenantConfiguration 作为 json 负载获取 Consumes application json application xml POST public Message c
本地主机上跨子域的用户身份验证

我正在我的本地主机上构建一个应用程序当我通过一个子域例如 sub localhost 登录时我需要在应用程序的所有其他子域例如 sub2 localhost sub3 localhost 中使用 Auth 访问该登录用户我将其更改
Pandas 风格：在整行上绘制边框，包括多索引

我在 jupyter 笔记本中使用 pandas 样式来强调此数据框中子组之间的边界从技术上讲在每个更改的多重索引处绘制边框但忽略最低级别 some sample df with multiindex res np repeat re
wordnet getDict() 找不到 Wordnet 词典

当使用以下代码使用 WordNet 中的 Lemmatizer 算法时 gt initDict C Program Files x86 WordNet 2 1 dict 1 TRUE if initDict C Program Files
在 Python 中将多字节字符转换为 7 位 ASCII

我正在通过 Python 脚本下载并解析网页我需要它被编码为 7 位 ASCII 以便进一步处理我正在使用请求库 http docs python requests org en master 在一个 virtualenv 基于 U
如何在 ListView 中访问 WebView 的 NavigateToString 属性

我有一个ListView除其他外其中包含WebView 当一个ListViewItem在此列表中被选中我想将 HTML 绑定到WebView通过NavigateToString方法 WebView 需要位于绑定列表中因为它绑定到项目列
将本地 PDF 文件加载到 WebView 中

我正在尝试将以下功能放入我正在编写的 iOS 应用程序中在 XCode 中的项目的资源文件夹中发送一组 PDF 将 PDF 复制到应用程序目录在网络视图中打开 PDF 据我所知前两个步骤工作正常我在复制操作后使用 FileManag
使用 WPF WriteableBitmap.BackBuffer 绘制线条

您是否知道任何库提供使用 WPF WriteableBitmap 和理想情况下 BackBuffer 绘制简单形状线条和可选的其他形状的方法我知道有一个针对 silverlight 的 WriteableBitmapEx 项目但是有
如何使用 VBA 代码添加新电子表格

我正在创建一个宏宏的部分功能是让 VBA 创建一个新的电子表格由于发行的性质名称将会改变我需要向此电子表格添加代码无论如何我可以做到这一点吗乔克已经解释了它是如何工作的我会更进一步添加工作表的语法是 expression A
/YYYY/MM/Title-Slug URL 结构与Friendly_Id 解决方案在#edit 上阻塞

根据我得到的指导先前的问题在解决我的实现 YYYY MM Slug URL 结构的原始问题我希望得到一些帮助来解决我在尝试编辑帖子时收到的错误没有路由匹配 PATCH blog 2015 09 example post blog 201
如何在android jdk中动态地用ImageView填充TableLayout？

I ve a TableLayout我的元素main xml
ajax文件上传

我正在努力在不重新加载页面的情况下上传处理和显示文件我该如何使用 jquery 将文件正确发布到服务器
AJAX：如何在单击按钮时更改客户端和服务器端的值？

在接下来的SSCCE中我有一个字符串其中包含三个的 HTMLdivs I add a style display none 归因于所有div除了第一个之外我给所有的按钮添加了一个按钮divs除了最后一个并添加一个JSonclick事
如何在8086汇编中生成随机数？ [复制]

这个问题在这里已经有答案了我想知道是否有使用汇编生成随机数的例程或指令在 8086 上任何帮助将不胜感激最常见的方法是使用时间戳在 32 位模式下可以通过以下方式完成rdtsc指令在16位模式下使用BIOS中断1A的功能0 因
如何对多维字典中的值求和？

通常我会使用 sum dict A values 来对字典中带有键 A 的所有值求和然而在这种情况下我想要求和的不是主键的所有值而是辅助子键具有特定名称的所有值让我在下面展示一个简化的例子 dict A val1 3 v
如何在 SwiftUI ForEach 内容中将多个按钮操作分开？

我有一个带有复选框标题和计时器图标的项目列表复选框是一个按钮计时器图标是一个具有与其关联的独特操作的按钮但是如果我点击单元格内的任何位置它会同时触发两个按钮操作它们的目的是彼此独立运行以及单元中的水龙头独立运行如何修改以下代
使用布尔掩码有效地将 numpy 数组的元素归零

所以我创建了一个超慢的版本 arr np arange 3 9 reshape 3 9 print arr to black np random choice a False True size 9 for i j in enumerate
在python中分隔克拉A

我有以下形式的数据 37101000ssd48800 A1420asd938987 A2011 09 10 A18 47 50 000 A99 00 A1 A0 A 37101000sd48801 A44557asd03082 A2011
iOS 13 - 当搜索主动推送到其他 VC 时，该 VC UITableView 会位于 Swift 4 中的导航栏下方

我已经在 iOS 12 中检查过它工作正常问题是当我要搜索并推送到第二个 VC 时它工作正常当我来回推到第二个 VC 时 UITableview 就会进入导航栏下方正常推送工作正常仅在搜索活动并第二次推送时出现问题我已经尝试过下面
Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能

我们正在使用 Python SDK 在 google 数据流中运行日志文件解析作业数据分布在数百个每日日志中我们通过云存储中的文件模式读取这些日志所有文件的数据量约为 5 8 GB gz 文件总共 50 8000 万行 loglin

Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能

Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能 的相关文章

随机推荐

热门标签

Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能的相关文章