避免重新计算 Beam Python SDK 中所有云存储文件的大小

2024-01-24

我正在开发一个从 Google Cloud Storage (GCS) 目录读取约 500 万个文件的管道。我已将其配置为在 Google Cloud Dataflow 上运行。

问题是，当我启动管道时，需要几个小时“计算所有文件的大小”：

INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished computing size of: 10000 files
[...]
INFO:apache_beam.io.gcp.gcsio:Finished computing size of: 5480000 files
INFO:apache_beam.io.gcp.gcsio:Finished listing 5483720 files in 5549.38778591156 seconds.
INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished computing size of: 10000 files
[...]
INFO:apache_beam.io.gcp.gcsio:Finished computing size of: 5480000 files
INFO:apache_beam.io.gcp.gcsio:Finished listing 5483720 files in 7563.196493148804 seconds.
INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished computing size of: 10000 files
[...]

正如您所看到的，计算大约 550 万个文件的大小花了一个半小时（5549 秒），然后又从头开始！又花了2个小时跑了第二遍，然后又开始了第三遍！截至撰写本文时，该作业在 Dataflow 控制台中仍然不可用，这使我相信这一切都发生在我的本地计算机上，并且没有利用任何分布式计算。

当我使用较小的输入数据集（2 个文件）测试管道时，它会重复大小估计 4 次：

INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished listing 2 files in 0.33771586418151855 seconds.
INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished listing 2 files in 0.1244659423828125 seconds.
INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished listing 2 files in 0.13422417640686035 seconds.
INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input
INFO:apache_beam.io.gcp.gcsio:Finished listing 2 files in 0.14139890670776367 seconds.

按照这个速度，仅对所有 550 万个文件执行 GCS 大小估计 4 次就需要大约 8 小时，所有这些都是在 Dataflow 作业开始之前进行的。

我的管道配置为--runner=DataflowRunner选项，因此它应该在数据流中运行：

python bigquery_import.py --runner=DataflowRunner #other options...

管道从 GCS 读取数据如下：

parser = argparse.ArgumentParser()
parser.add_argument(
    '--input',
    required=True,
    help='Input Cloud Storage directory to process.')
known_args, pipeline_args = parser.parse_known_args(argv)
pipeline_options = PipelineOptions(pipeline_args)
pipeline_options.view_as(SetupOptions).save_main_session = True

with beam.Pipeline(options=pipeline_options) as p:
    files = p | beam.io.ReadFromText('gs://project/dir/*.har.gz')

参考bigquery_import.py https://github.com/rviscomi/bigquery/blob/8ac58f72a2367305d080e406e81ef376db8a90f7/dataflow/python/bigquery_import.py#L208-L212在 GitHub 上获取完整代码。

我很困惑为什么这个繁琐的过程发生在数据流环境之外以及为什么需要多次完成。我是否正确地从 GCS 读取文件，或者是否有更有效的方法？

感谢您报告此事。 Beam 有两种用于读取文本的转换。ReadFromText and ReadAllFromText. ReadFromText会遇到这个问题但是ReadAllFromText不应该。

https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/textio.py#L438 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/textio.py#L438

缺点是ReadAllFromText是它不会执行动态工作重新平衡，但是在读取大量文件时这不应该成为问题。

Created https://issues.apache.org/jira/browse/BEAM-9620 https://issues.apache.org/jira/browse/BEAM-9620用于跟踪 ReadFromText（以及一般基于文件的源）的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

避免重新计算 Beam Python SDK 中所有云存储文件的大小的相关文章

围绕 readline 构建的 python 批处理的触发器选项卡完成

背景我有一个 python 程序它导入并使用 readline 模块来构建自制的命令行界面我有第二个 python 程序围绕 Bottle 一个 Web 微框架构建充当该 CLI 的前端第二个 python 程序向第一个程序打开
Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

Define 是未定义的 Javascript 节点

我正在尝试使用 Node 运行 Javascript 文件以将博客更新发布到 Tumblr 到目前为止在我的 main js 文件中我有以下内容 Tumblr Information var tumblr require vendor
由于图形 API 不再可用，有什么方法可以通过 API 创建 facebook 事件

我想使用 API 创建 Facebook 事件我了解到 Graph API 不再可用于发布事件我还尝试了 Javascript SDK 和 PHP SDK 但收到相同的错误消息有没有办法通过 Javascript API 创建 Fac
将嵌套 XML 绑定到 CheckboxList

我有一个嵌套的xml包含菜单和子菜单的文件我需要在页面加载时将其绑定到 asp net CheckBox 控件我正在尝试使用下面的 C 代码进行绑定 C DataSet ds new DataSet try Reading the da
当设备方向改变时，UIWebview 中出现黑条

我有一个 UIWebView 正在加载到另一个视图上旋转时纵向或横向的一切看起来都很好但是当我处于纵向时当我从纵向旋转到横向时我通过捏或双击稍微放大视图不会完全填充使用 uiwebview 右侧大约有 10 个像素变黑如该屏幕
使用 JavaScript 通过 websocket 进行视频流传输

最快的直播方式是什么live使用 JavaScript 制作视频 TCP 上的 WebSockets 是否是足够快的协议来传输 30fps 的视频 TCP 上的 WebSockets 是否是足够快的协议来传输 30fps 的视频是的是的
TYPO3 扩展生成器多个图像上传不起作用

我的目标是使用 TYPO3 7 6 2 版本中的扩展生成器创建扩展我从扩展构建器文档创建了类别产品扩展除了上传单个图像之外它工作得很好但我必须创建将多个图像添加到单个产品并在前端显示图像轮播的功能但扩展生成器不适用于文件上传我是
组合连续原子变量的存储/加载

参考稍微过时的 paper http www open std org JTC1 SC22 WG21 docs papers 2007 n2338 html作者 Hans Boehm 在原子操作下它提到内存模型当时提出不会阻止优
使用 Swift 强制 NSLocalizedString 使用特定语言

通过 swift 我如何强制我的应用程序从特定的 Localized strings 读取数据我在实例化 ViewController 之前将其放入 didFinishLaunchingWithOptions 中但它仍然以英语显示应用程
斯威夫特3；范围“超出范围”

我刚刚将 Xcode 更新到 8 0 beta 2 和 swift 3 0 从 swift 2 3 更新后我遇到了很多错误我有一个字符串扩展它将 self 字符串中的范围转换为 NSRange extension String fun
为什么我应该用 c++ 而不是 c 设置插件接口

由于我的previous https stackoverflow com questions 1054697 why isnt my new operator called 问题 https stackoverflow com questi
C# 将图像从 PowerPoint 复制到 Word

我需要一个应用程序将文本和图像从 PowerPoint 复制到 Word 我使用这个库 Microsoft Office Interop PowerPoint 和 Microsoft Office Interop Word 文本很容易传输
Android 不同屏幕尺寸的布局

我正在为 Android 应用程序的布局而苦苦挣扎我为不同的屏幕尺寸定义了不同的布局当前的布局目录结构是这样的 layout 布局土地小布局布局 xlarge 布局 xlarge 土地 Problem 主要布局目录文件正在显示3 7
联系表格 Laravel 4

我是 Laravel 4 的菜鸟联系表单给我带来了一些麻烦发现了一些东西全部都使用控制器但我只需要在路线中使用它如何创建简单的联系表单姓名电子邮件和消息的路由以将数据发送到管理员电子邮箱 Cheers 这是一种仅使用您的路由
使用 Google 脚本删除电子表格中的空白行

Spreadsheet 1 Spreadsheet 1 中存在的数据 Name apple android windows linux Germany 3 4 6 7 America 4 1 6 2 Sweden 1 6 1 6 Paris
在C中将字符数字转换为相应的整数

C语言中有没有办法将字符转换为整数例如从 5 to 5 根据其他回复这很好 char c 5 int x c 0 另外为了进行错误检查您可能希望首先检查 isdigit c 是否为 true 请注意您不能完全便携地对字母执行相同
迭代除 x item 之外的字典

我有一个这种格式的字典 d data key 1 value 1 key 2 value 2 key 3 value 3 key x value x key n value n 我必须迭代它的项目 for key value in colu
如何区分 Switch,Checkbox 值是由用户更改还是以编程方式（包括通过保留）更改？

setOnCheckedChangeListener new OnCheckedChangeListener Override public void onCheckedChanged CompoundButton buttonView b
在knockout js中将循环结构转换为JSON

我有两个网格结构在其中一个网格结构中我多次有多个字段而在其中一个网格结构中我一次有两个字段我为每个网格编写 apply 方法我的第一个网格 id 工作正常但是当我单击第二个网格上的应用时我收到此错误 Uncaught Typ
在 C++ 软件中纳入共享软件限制

我希望在共享软件的基础上实现我的软件以便用户给予最多例如 30 天的试用期来试用该软件购买时我打算向用户提供一个随机生成的密钥输入该密钥时再次启用该软件我以前从未走过这条路所以任何建议反馈或关于如何完成此操作的标准方
避免重新计算 Beam Python SDK 中所有云存储文件的大小

我正在开发一个从 Google Cloud Storage GCS 目录读取约 500 万个文件的管道我已将其配置为在 Google Cloud Dataflow 上运行问题是当我启动管道时需要几个小时计算所有文件的大小 INFO

避免重新计算 Beam Python SDK 中所有云存储文件的大小

避免重新计算 Beam Python SDK 中所有云存储文件的大小 的相关文章

随机推荐

热门标签

避免重新计算 Beam Python SDK 中所有云存储文件的大小的相关文章