apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流

2024-02-18

我已通过以下方式升级到最新的 apache_beam[gcp] 包pip install --upgrade apache_beam[gcp]。然而，我注意到改组（） https://github.com/apache/beam/blob/master/sdks/python/apache_beam/transforms/util.py#L516没有出现在[gcp]分配。这是否意味着我将无法使用Reshuffle()在任何数据流管道中？有没有办法解决？或者 pip 包是否可能不是最新的，如果 Reshuffle() 在 github 上的 master 中，那么它将在数据流上可用？

根据对此的回应question https://stackoverflow.com/questions/46778848/google-cloud-dataflow-randomize-writetobigquery我正在尝试从 BigQuery 读取数据，然后将数据随机化，然后再将其写入 GCP 存储桶中的 CSV。我注意到我用来训练 GCMLE 模型的分片 .csv 并不是真正随机的。在张量流中，我可以随机化批次，但这只会随机化队列中构建的每个文件中的行，我的问题是当前生成的文件在某种程度上存在偏差。如果有任何关于在数据流中写入 CSV 之前进行洗牌的其他方法的建议，我们将不胜感激。

一种方法是自己重新创建随机播放。

import random

shuffled_data = (unshuffled_pcoll
        | 'AddRandomKeys' >> Map(lambda t: (random.getrandbits(32), t))
        | 'GroupByKey' >> GroupByKey()
        | 'RemoveRandomKeys' >> FlatMap(lambda t: t[1]))

我剩下的问题是我是否需要担心窗口或ExpandIterable部分来自code https://github.com/apache/beam/blob/master/sdks/python/apache_beam/transforms/util.py#L497

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流的相关文章

Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型

随机推荐

如何在 Telegram 中应答回调查询后发送消息？

我正在尝试用 PHP 开发一个 Telegram 机器人但当用户按下内联按钮时我无法让我的机器人回答用户有人可以帮我发消息吗 sendMessage方法调用后answerCallback method 这是我最后的试用代码 if c
在 spritekit 中沿着 UIBezierPath 绘制节点

我目前正在 spritekit 中开发一款游戏其中有游戏关卡地图我正在使用 UIBezierPath 作为我希望关卡节点遵循的路径我遇到的唯一问题是尝试沿路径绘制它们并且想知道如何将它们添加到场景中以便将它们添加到路径中每一个都与
如何修复：使用 nginx 反向代理时收到 RST_STREAM，错误代码为 2

我目前正在树莓派上使用dialogflow api 使用 grpc 调用 StreamingDetectIntent 方法时一切正常我必须在我的产品上使用多个 api 因此我尝试在它们前面放置一个反向代理这样我就只能调用一个地址我正
测试监听 webhook 的 Laravel 路由

似乎我在这里遗漏了一些东西但我正在努力为集成 SendOwl webhook 的 Laravel 实现测试这是我正在使用的文档 https help sendowl com help using web hooks https help
分发java应用程序

我最近开发了一些java应用程序我希望其他人可以在他们的机器上运行我做了一些研究现在知道要分发 java 代码您需要创建 jar 文件好吧我这样做了但是当我分发这些文件时它在某些计算机上运行但在其他计算机上它返回一个错误
图（图表）算法

有人有计算轴最小值和最大值的不错的算法吗当为给定的一组数据项创建图表时我希望能够给出算法集合中的最大值 y 集合中的最小值 y 轴上显示的刻度线数量一个可选值must显示为勾号例如显示 ve 和 ve 值时为零该算法应该返回
如何从 Node.js 应用程序访问浏览器的窗口对象？

我正在尝试编写一个简单的应用程序来监视文件更改并自动在浏览器中重新加载更新的代码我知道 livereload nodeamon 和其他的存在我只是想编写自己的我已经创建了服务器让它读取我想要读取的文件调用观察程序当监视文件中发生
Android 如何读取 BLE 属性可读可写可通知 GATT 特性

如何阅读BluetoothGattCharacteristic属性如特征Readable Writable or Notifiable return Returns b true b if property is writable publ
下载管理器 - 限制下载速度[重复]

这个问题在这里已经有答案了我需要为我的文件下载器应用程序实施下载速率限制并且我查看了ThrottledStream来自 CodeProject 的类但这在我的情况下不起作用因为我必须能够在下载过程中更改限制而不仅仅是在开始时这是
Ghostscript 多页 PDF 转 PNG

我一直在使用 Ghostscript 从 pdf 中生成单个页面的 pdf 图像现在我需要能够从 pdf 中提取多个页面并生成一个长垂直图像我是否缺少一个可以允许这样做的论点到目前为止当我调用 Ghostscript 时我使用以下
重命名目录会在我第二次重命名时锁定重命名的 dir

我在多次重命名目录时遇到问题它似乎锁定了文件 e comes from a objectListView item DirectoryInfo di DirectoryInfo e RowObject DirectoryInfo pare
在 Visual Studio 2013 中显示带有偏移量的控件

最近我将源代码从 Visual Studio 2010 迁移到 Visual Studio 2013 在 Visual Studio 2013 中构建后控件将显示有偏移单击下面的链接查看图像链接到图像 https i stack i
我无法安装包 spatstat.data。是否可以下载 zip 文件并复制并粘贴到 R 文件夹库中？

新的错误消息 https i stack imgur com gy84q png我更新了spatstat包它分为各个包除了 spatstat data 之外所有这些都已更新我努力了install packages spatstat
Objective-C 和 MATLAB/Octave 文件扩展名之间的重叠

Objective C 或 MATLAB Octave 是否有源文件扩展名 m 我问这个问题是因为我将 Hello World 程序放在一个文件夹中而我不能有两个hello m files 我看到的唯一方法是为每个程序创建子目录并将文件放
在 Kotlin 协程中等待 LiveData 结果

我有一个带有异步方法返回的存储库类User包裹成一个LiveData interface Repository fun getUser LiveData
针对应用程序组件工厂的清单合并失败

我是初学者第一次使用 MapActivity 我的项目生成了一些标题为清单合并失败的错误并建议在 android 清单文件中添加一行 Manifest merger failed Attribute application appC
后递增运算符在求值之后才会递增变量[重复]

这个问题在这里已经有答案了我正在寻找增量运算符不增加我设置innerHTML值的地方的数值的原因如下所示 div div var a 14 document getElementById php innerHTML a the resu
角度材质步进器下一步显示创建而不是 1

我正在研究步进器我想禁用下一步直到所有填充都被填充所以我在 html文件
使用 awk 计算第 95 个百分位

我是 awk 脚本编写的新手希望获得一些帮助来计算包含以下数据的文件的第 95 个百分位值 0 0001357 0 000112 0 000062 0 000054 0 000127 0 000114 0 000136 I tried c
apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流

我已通过以下方式升级到最新的 apache beam gcp 包pip install upgrade apache beam gcp 然而我注意到改组 https github com apache beam blob master s

apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流

apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流 的相关文章

随机推荐

热门标签

apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流的相关文章