（PySpark）reduceByKey 之后的嵌套列表

2023-12-02

我确信这是非常简单的事情，但我没有找到与此相关的任何内容。

我的代码很简单：

... 
stream = stream.map(mapper) 
stream = stream.reduceByKey(reducer) 
...

没什么特别的。输出如下所示：

... 
key1  value1 
key2  [value2, value3] 
key3  [[value4, value5], value6] 
...

等等。所以，有时我会得到一个固定值（如果它是单个值）。有时 - 嵌套列表可能非常非常深（在我的简单测试数据上，它是 3 层深）。

我尝试在来源中搜索“平坦”之类的东西 - 但只发现了 flatMap 方法，这（据我所知）不是我需要的。

我不知道为什么这些列表是嵌套的。我的猜测是，它们是由不同的流程（工人？）处理的，然后在没有压平的情况下连接在一起。

当然，我可以用 Python 编写一段代码来展开该列表并将其展平。但我相信这不是正常情况 - 我认为几乎每个人都需要平坦的输出。

itertools.chain 在发现不可迭代值时停止展开。换句话说，它仍然需要一些编码（上一段）。

那么 - 如何使用 PySpark 的本机方法来展平列表？

Thanks

这里的问题是你的reduce函数。对于每个键，reduceByKey使用值对调用您的reduce 函数，并期望它生成相同类型的组合值。

例如，假设我想执行字数统计操作。首先，我可以将每个单词映射到一个(word, 1)配对，然后我可以reduceByKey(lambda x, y: x + y)总结每个单词的计数。最后，我留下了一个 RDD(word, count) pairs.

这是一个来自PySpark API 文档:

>>> from operator import add
>>> rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
>>> sorted(rdd.reduceByKey(add).collect())
[('a', 2), ('b', 1)]

要理解为什么你的示例不起作用，你可以想象像这样应用reduce函数：

reduce(reduce(reduce(firstValue, secondValue), thirdValue), fourthValue) ...

根据您的减少功能，听起来您可能正在尝试实现内置groupByKey操作，它将每个键及其值列表分组。

另外，看看combineByKey，概括为reduceByKey()允许reduce函数的输入和输出类型不同（reduceByKey is 实施的按照combineByKey)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

（PySpark）reduceByKey 之后的嵌套列表的相关文章

CVXPY 二次规划； ArpackNoConvergence 错误

我尝试使用 Python 包 CVXPY 来解决第一种形式的凸二次规划问题 https www cvxpy org examples basic quadratic program html https www cvxpy org exam
为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框但由于某些原因 Spark 附加 WHERE 1 0 在我想要执行的查询末尾并抛出异常说明 You have an error in your SQL
如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
使用 Scala 在 Apache Spark 中拆分字符串

我有一个数据集其中包含以下格式的行制表符分隔 Title lt t gt Text 现在对于每个单词Text 我想创建一个 Word Title 一对例如 ABC Hello World gives me Hello ABC Worl
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

从登录参数创建用户对象

我试图在用户登录后创建一个包含所有用户字段的用户对象以便我可以从用户的类中检索任何给定的属性这是用户类 public class User private String username private String password
运行时错误“9”下标超出条件格式代码范围

我对 VBA 以及一般的任何类型的编程非常陌生所以我不确定如何继续我猜我的错误与条件格式的重叠范围有关因为当代码以不同的方式设置时我也会遇到错误一旦范围不再重叠这些错误就会得到解决这里的情况可能并非如此但我认为了解一下会有
自签名证书可以保护多个 CN / FQDN 吗？

这是一个有点愚蠢的设置但这就是我现在正在查看的内容我正在学习 Kubernetes 我想将自定义代码推送到我的 Kubernetes 集群这意味着该代码必须作为 Docker 映像提供可从someDocker 存储库默认为 Doc
重复调用 Ng-Options 表达式

我的设备有多个问题
配置 Eclipse 以与 MSYS2 一起使用

我使用 Eclipse Mars 和 MSYS2 Eclipse 无法识别我的 MSYS2 安装它包含用于 32 位编译的 Mingw w64 我在互联网上找到的东西不起作用我应该怎么办好吧聚会有点晚了但看起来还有没什么特别的关于
ASP.NET-发送电子邮件

我正在做一个航班预订系统我想向用户发送一封电子邮件其中包含他的旅行的电子机票电子机票是使用从数据库中获取的预订 ID 以及前面页面中的其他详细信息例如乘客姓名等动态生成的那么我怎样才能将动态生成的电子客票发送到他的电子邮件 ID
与视频同步播放多个音轨之一

我正在尝试在网络浏览器中播放视频原始视频带有两个或多个音频流每个音频流都采用不同的语言我想让用户可以选择切换他们正在收听的音轨我尝试使用audioTracks在视频元素上但尽管说它在大多数浏览器中都支持在标志后面至少在 Fire
req.body 是未定义的意思是应用程序

我的应用程序有问题告诉您问题所在的简单方法让我向您展示我的代码 var Meetup require models meetup module exports create function req res var meetup new
Mongodb和排序子数组

不确定这是否可以做到所以我想问一下我有以下 mongodb s store abc offers spend 100 00 cashback 10 00 percentage 0 10 spend 50 00 cashback 5 00
在运行时将环境变量传递到 Vue 应用程序

如何访问 Vue 中的环境变量这些变量在运行时而不是在构建期间传递给容器堆栈如下 Vue CLI 3 0 5 Docker 库伯内斯 stackoverflow 和其他地方建议使用 env 文件传递变量和使用模式的解决方案但这是
自定义域名映射到用户配置文件。

目前用户配置文件的格式为 website com username 这很好然而一些重度用户希望使用自定义域名这与 Tumblr 类似用户被授予 username tumblr com 的子域但允许他们使用映射到该子域的外部域我
MS Access SQL：聚合最小值但检索其他字段

这可能是一个非常简单的问题但我不知道如何在 MS Access 中解决它以前可能已经回答过但我没能找到我有一个包含 3 列的表 col1 是对象 ID col2 和 col3 是测量值我构建了一个查询以便对于每个对象我们都能在
为什么我无法在 lambda 中捕获此按引用 ('&this')？

我明白了正确的捕捉方式this 修改对象属性在 lambda 中如下 auto f this 但我对我所看到的以下特点感到好奇 class C public void foo auto f this not captured auto f
Postgresql sqlalchemy 默认时间 now() 一遍又一遍地给出相同的时间

我的表内有一个字段即时间 time db Column db Time default datetime datetime now time nullable False 由于某种原因它一直默认为同一时间而不是实际的系统时间 23 53
ExtJS 4 中的股票图表

如何绘制数百点的股票图表或折线图我在常规折线图中禁用了动画但没有成功而且仍然太重且太慢我最近写了一篇关于在 Ext JS 4 中创建股票图表的博客文章 http www scottlogic co uk 2011 12 ext js
JPA 中的附加查询

我有两节课InvitedPerson and Flight彼此之间具有一对一的关系以下是它们的注释方式 public class InvitedTech OneToOne mappedBy invitedTech cascade Casc
使用 VBscript 访问 JSON 数据中的所有值

我必须做一些 vbscript 来处理来自网络服务器的 json 格式的输出我正在使用我发现的一个名为 aspJSON 的旧 vbscript 代码片段我认为它来自 www aspjson com 但该网站不再可用我有这个 JSON
将小数分隔符从“,”（逗号）转换为“.” （点）例如“7,5”至“7.5”

是的我知道这些是本地化设置但我不会告诉我的客户只更改我的应用程序的本地化设置那么如何转换这些数字呢或者如何更改给定范围的数字格式那里需要点用户可以输入逗号或点甚至是逗号分隔的数字例如 1 000 000 00 编辑通过
相当于 HTML 中的 include()

我想知道是否有一种方法可以仅使用 html 将一些 html 内容包含在另一个 html 中 PHP 的替代品这可能吗 EDIT 这引起了一些混乱我需要的是几乎是一个 html 标签它具有将 html 文档包含在另一个文档中的功能
（PySpark）reduceByKey 之后的嵌套列表

我确信这是非常简单的事情但我没有找到与此相关的任何内容我的代码很简单 stream stream map mapper stream stream reduceByKey reducer 没什么特别的输出如下所示 key1 value

（PySpark）reduceByKey 之后的嵌套列表

（PySpark）reduceByKey 之后的嵌套列表 的相关文章

随机推荐

热门标签

（PySpark）reduceByKey 之后的嵌套列表的相关文章