数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection

2024-04-14

我正在查看 incubator-beam 存储库上的 word_counting.py 示例（从数据流文档链接），我想修改它以获得n 出现次数最多的。这是我的管道：

  counts = (lines
        | 'split' >> (beam.ParDo(WordExtractingDoFn())
                      .with_output_types(unicode))
        | 'pair_with_one' >> beam.Map(lambda x: (x, 1))
        | 'group' >> beam.GroupByKey()
        | 'count' >> beam.Map(lambda (word, ones): (word, sum(ones)))
        | 'top' >> beam.combiners.Top.Of('top', 10, key=lambda (word, c): c) # 'top' is the only added line

  output = counts | 'format' >> beam.Map(lambda (word, c): '%s: %s' % (word, c))
  output | 'write' >> beam.io.Write(beam.io.TextFileSink(known_args.output))

我使用 Top.Of() 方法添加了一行，但它似乎返回一个将数组作为单个元素的 PCollection（我正在等待有序的 PCollection，但查看文档，PCollection 似乎是无序的集合。

当管道运行时，beam.Map 仅循环一个元素（即整个数组）并且在“format”中，lambda 函数会引发错误，因为它无法将整个数组映射到元组 (word,c)

我应该如何处理这个单元素 PCollection 而不会在这一步中断管道？

如果你想扩展一个PCollection的可迭代对象变成PCollection这些可迭代的元素，您可以使用FlatMap，其参数是从元素到结果可迭代的函数：在您的情况下，元素本身就是可迭代的，因此我们使用恒等函数。

  counts = ...
        | 'top' >> beam.combiners.Top.Of('top', 10, key=lambda (word, c): c)
        | 'expand' >> beam.FlatMap(lambda word_counts: word_counts) # sic!

  output = counts | 'format' >> beam.Map(lambda (word, c): '%s: %s' % (word, c))
  ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googlecloudplatform

googleclouddataflow

数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection 的相关文章

检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

一个月中的一周熊猫

我试图每个月坚持一周有些月份可能有四个星期有些可能有五个星期对于每个日期我想知道它属于哪一周我最感兴趣的是本月的最后一周 data pd DataFrame pd date range 1 1 2000 periods 100 f
如何使用反射更改 kotlin 私有 val？

我可以使用反射访问私有 val 值如下所示 fun main val mainClass MainClass val f MainClass class memberProperties find it name info f let i
一瞥让一切都慢了 50 倍

我一直在使用glimpse来尝试解决一些页面速度慢的问题结果发现glipse就是原因页面请求超过 30000 秒毫不夸张地说它们是即时的所以我一直在追鬼当导致如此速度差异时我如何使用一瞥来查看一切需要多长时间我是否配置错误或者
如何在 iPad 硬件中（而不是在模拟器中）测试 iPad 应用程序

在 iPad 模拟器上完成构建和测试后我需要在 iPad 硬件上测试该应用程序我怎样才能做到这一点如果您已支付开发人员密钥的费用则应该能够打开管理器窗口设置您的设备然后选择设备而不是模拟器作为 XCode 中的目标看苹果的文档
更高效的 matplotlib 堆积条形图 - 如何计算底部值

我需要一些帮助使用 matlibplot 在 python 中制作一组堆积条形图我的基本代码如下但我的问题是如何生成值bottom对于第二个之外的任何元素有效率的我可以让示例图正确堆叠始终从下到上为 a b c d import
我应该在 OBDII 的 BLE IOS 设备中使用什么 BLE 特性

您好我想知道我应该从这个 OBDII BLE 设备加密狗中使用什么写入和通知特性我想在 Flutter 中创建一个适用于 IOS 的程序有不少 Device name VEEPEAK Device id 34E2B2AF 60F4
更改值结转次数的 maxgap

我有一个类似于以下内容的数据框 library data table test lt data table data frame value c 5 NA 8 NA NA 8 6 NA NA 10 locf N c 1 NA 1 NA NA
google.script.run.withSuccessHandler() 返回未定义

我使用下面提供的代码在单独的 GS 文件中创建了一个数组我尝试在 HTML 文件中调用它我的目标是将数组的内容与参数进行比较email 但是返回的值google script run withSuccessHandler is und
来自浏览器的带有正文的异步 GET 请求

好吧我知道这是一个坏主意不应该这样做但为了这个问题请假设没有其他方法我得到的 API 端点需要以空对象作为主体的 GET 请求有没有办法从浏览器执行异步请求我在用着axios使用的库XMLHttpRequest在引擎盖下和MD
如何在Qt中暂时断开与插槽的信号？

我用信号连接一个插槽但现在我想暂时断开它们的连接这是我的班级声明的一部分 class frmMain public QWidget private QTimer myReadTimer private slots void on btn
POST 请求（Javascript）

如何在 Javascript 中发出简单的 POST 请求而不使用表单且不回发虽然我从 sundeep 答案中获取代码示例但为了完整性而将代码发布在此处 var url sample url php var params lorem i
如何在 Django 1.8 中使用 jinja2 作为模板引擎

我一直在研究如何在 django 1 8 中使用 jinja2 但是没有将 django 与 jinja2 一起使用的完整源代码我想知道你们是否知道在 django 中使用 jinja2 的过程我查看了官方文档并查看了以下问题如何设置
按 Option 键隐藏/显示应用程序主菜单中的菜单项

我想在应用程序的主菜单中添加一个很少使用的菜单项我希望它默认隐藏仅当用户按住 Option 键时才显示我该怎么做呢看来我应该处理flagsChanged 但它是NSResponder的方法和NSMenu不继承自NSResponder
为什么使用 boost 后 C++ 比 python 快得多？

我的目标是用 Python 编写一个用于频谱有限元的小型库为此我尝试使用 Boost 通过 C 库扩展 Python 希望它能让我的代码更快 class Quad public Quad int int double integrate
将 TDD 与 Web 应用程序开发集成的最佳实践？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案单元测试和 ASP NET Web 应用程序在我的团队中是一个模棱两可的点通常情况下良好的测试实践会被忽视 Web 应用程序最终会在没有测试
如何对库进行临时签名？

尝试运行链接到动态库的可执行文件出现以下错误 Library not loaded Reason tried
为什么小于不起作用？

这看起来很简单但为什么这种比较不起作用呢 if nmax lt num nmax num 我把它放在一个循环中寻找最大的数字第一个数字是105 然后是89 然后是99 然后是一大堆大于99的数字第一个数字是要测试的数字第二个数字是
GWT：对RichTextArea进行文本限制并阻止用户输入更多字符

我正在使用 GWT RixhText Area 并希望在 richText Area 中限制 100 个字符现在我正在做这个 description addKeyDownHandler new KeyDownHandler Overrid
Elastic Beanstalk 剥离 Sec-WebSocket-Accept 标头

我正在尝试让 NET Core 应用程序在 elastic beanstalk 上运行以从浏览器中的 javascript 接收 websockets 连接当我在本地计算机上测试 AWS 之外的客户端和服务器时我能够在两者之间建立 W
数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection

我正在查看 incubator beam 存储库上的 word counting py 示例从数据流文档链接我想修改它以获得n 出现次数最多的这是我的管道 counts lines split gt gt beam ParDo Wor

数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection

数据流：将 Top 模块与 Python SDK 结合使用：单元素 PCollection 的相关文章

随机推荐

热门标签