Spark Python - 如何使用reduce by key来获取最小值/最大值

2024-01-07

我有一些城市的最高和最低温度的样本数据，格式为 csv。

Mumbai,19,30
Delhi,5,41
Kolkata,20,40
Mumbai,18,35
Delhi,4,42
Delhi,10,44
Kolkata,19,39

我想使用 Python 中的 Spark 脚本找出每个城市记录的所有时间最低温度。

这是我的脚本

cityTemp = sc.textFile("weather.txt").map(lambda x: x.split(','))

# convert it to pair RDD for performing reduce by Key

cityTemp = cityTemp.map(lambda x: (x[0], tuple(x[1:])))

cityTempMin = cityTemp.reduceByKey(lambda x, y: min(x[0],y[0]))

cityTempMin.collect()

我的预期输出如下

Delhi, 4
Mumbai, 18
Kolkata, 19

但是该脚本正在生成以下输出。

[(u'Kolkata', u'19'), (u'Mumbai', u'18'), (u'Delhi', u'1')]

如何获得所需的输出？

如果您必须使用reduceByKey函数，请尝试以下解决方案：

SCALA:

  val df = sc.parallelize(Seq(("Mumbai", 19, 30),
    ("Delhi", 5, 41),
    ("Kolkata", 20, 40),
    ("Mumbai", 18, 35),
    ("Delhi", 4, 42),
    ("Delhi", 10, 44),
    ("Kolkata", 19, 39))).map(x => (x._1,x._2)).keyBy(_._1)


    df.reduceByKey((accum, n) => if (accum._2 > n._2) n else  accum).map(_._2).collect().foreach(println)

PYTHON:

rdd = sc.parallelize([("Mumbai", 19, 30),
    ("Delhi", 5, 41),
    ("Kolkata", 20, 40),
    ("Mumbai", 18, 35),
    ("Delhi", 4, 42),
    ("Delhi", 10, 44),
    ("Kolkata", 19, 39)])

def reduceFunc(accum, n):
    print(accum, n)
    if accum[1] > n[1]:
        return(n)
    else: return(accum)

def mapFunc(lines):
    return (lines[0], lines[1])

rdd.map(mapFunc).keyBy(lambda x: x[0]).reduceByKey(reduceFunc).map(lambda x : x[1]).collect()

Output:

(Kolkata,19)
(Delhi,4)
(Mumbai,18)

如果你不想做一个reduceByKey。只需一组后跟 min 函数即可得到所需的结果。

val df = sc.parallelize(Seq(("Mumbai", 19, 30),
        ("Delhi", 5, 41),
        ("Kolkata", 20, 40),
        ("Mumbai", 18, 35),
        ("Delhi", 4, 42),
        ("Delhi", 10, 44),
        ("Kolkata", 19, 39))).toDF("city", "minTemp", "maxTemp")

        df.groupBy("city").agg(min("minTemp")).show

Output :

+-------+------------+
|   city|min(minTemp)|
+-------+------------+
| Mumbai|          18|
|Kolkata|          19|
|  Delhi|           4|
+-------+------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

reduce

Spark Python - 如何使用reduce by key来获取最小值/最大值的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j

随机推荐

使用 System.out.print 与 println 的多线程问题

我有以下线程它每 200 毫秒打印一个点 public class Progress private static boolean threadCanRun true private static Thread progressThrea
响应没有任何可以通过主题验证的有效断言

我对 SAML 和 ADFS 完全陌生我尝试用谷歌搜索我的错误但遗憾的是没有得到任何结果我一直在尝试设置 Spring SAML 和 ADFS 以便我可以通过以下方式进行单点登录工作本指南 http docs spring io au
使用 fpdf 从数组输出项目符号列表

我一直在寻找一种方法来向我的 pdf 输出文件添加项目符号或列表编号假设我有来自数据库的三行文本 Line 1 Line 2 Line 3 我想要的是 fpdf 读取每一行并在每一行前面放置一个项目符号因此输出将如下所示 Line 1
如何将 Terraform 对象放入 AWS Lambda 环境

Lambda 函数支持environment参数并可以轻松定义键值对但是如何将一个对象例如由模块变量定义放入函数的环境中呢我想在 python 3 7 中完成的快速示例地形 variable definition variable
无法使用 Testcafe 拦截来自页面的传出 AJAX 请求

我正在尝试将 TestCafe 用于客户端 javascript 库但无法通过计数机制捕获测试页面加载的任何传出 AJAX 请求我的尝试包括使用RequestLogger https devexpress github io testc
可排序列表 + 通过输入排名 # 重新排序每个项目的能力

我已经搜索并搜索了如何执行此操作但无济于事基本上我有一个非常标准的 jQuery 可排序列表使用夹具允许用户重新排列列表我想添加的是每个列表项的输入框自动填充该项目的允许用户输入任何数字只要它请参阅 YouTube 播放列表
如何在 C++/Linux 中执行外部命令？

我只想知道在 C 中执行外部命令的最佳方式是什么以及如何获取输出如果有 Edit 我想我必须告诉大家我是这个世界的新手所以我想我需要一个可行的例子例如我想执行如下命令 ls la 我怎么做 Use the popen http op
Excel 数据验证下拉列表中的空白值

我不知道从单元格 A1 到 A65555 会出现多少个值我有 B1 它是根据 A 列设置数据验证的如下所示 A1 A65555 A 列中最多存在 10 行值从A1到A10 但是当我单击 B1 时它显示空值以及 A1 到 A10 我希
Python 中日期之间的平均差异

我有一系列日期时间对象想计算它们之间的平均增量例如如果输入是 2008 10 01 12 15 00 2008 10 01 12 25 00 2008 10 01 12 35 00 那么平均增量将恰好为 00 10 00 即 10 分
如何在 UI 测试 Espresso android 中超越位置启用器对话？

我正在使用 Espresso 进行 Android UI 测试我想在设置中关闭位置的情况下运行测试但由于其他测试失败我陷入了位置启用器对话框我已经提到了我的观察和迄今为止我所尝试的使用 UiAutomator 它仅适用于单个测试用
我可以从 iOS DeviceSupport 目录中删除数据吗？

在用我不再需要的旧东西清理并清理磁盘后我遇到了iOS DeviceSupport文件夹中 Library Developer Xcode这占用了近 20 GB 的空间类似的问题之前已被问过 https stackoverflow com
功能应用程序的 Azure 应用服务计划之间的差异：Elastic Premium EP1 和 Premium V2 P1v2

我有 15 个功能应用程序需要部署来执行给定的应用程序服务计划但是我找不到哪个更适合此目的 Elastic Premium EP1 或 Premium V2 P1v2 对于每个函数我希望始终有 2 个预热实例以避免常规数量的请求出现冷
检查列表或集合的元素是否为单一类型的简单方法？

我需要编写一段代码如果所有元素都是 int 或都是 string 则返回 true 否则返回 false 1 1 a b False 1 2 3 4 True apple orange melon True 1 2 3 4 False 我
WixUI_InstallDir 和 ARPNOREPAIR / ARPNOMODIFY 属性

我想删除修复修改按钮添加或删除程序我也想用WixUI 安装目录对话框集这是我的代码
词法分析器的工作就是解析数字和字符串吗？

解析数字和字符串是词法分析器的工作吗这可能听起来很愚蠢也可能不愚蠢因为我问的是lexer should parse输入但是我不确定这实际上是词法分析器的工作还是解析器的工作因为为了正确地进行词法分析词法分析器需要首先解析字符串
作为构建的一部分，如何将文件复制并重命名到输出文件夹

我相信这更多是一个与 msbuild 相关的问题拥有一个 net core 应用程序我需要有条件地发布一个文件并根据 Visual Studio 2019 中选择的构建配置应在发布到目标之前重命名该文件所以我正在考虑修改 cspr
Android - “连接到 Google Play”仍然给出错误代码 4？

我对 Google API 和GoogleApiClient类所以我跟着本教程 https developers google com mobile android sign in希望能够进行足够的设置来显示排行榜目前我已将此代码实施到
如何在使用 CPLEX Python API 后获取经过时间的值

我正在使用 CPLEX python API 来解决优化问题该模型被命名为 DOT 当我运行 DOT solve 时 python 控制台中会出现许多信息 Iteration log Network Optimal Objective 1
奇怪的jquery错误，当在使用wrap()之后尝试append()时[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案使用 jQuery 我创建了一个容器用它包裹一个元素通过将对象传递给 jQuery 选择器来选择容器并尝试向容器
Spark Python - 如何使用reduce by key来获取最小值/最大值

我有一些城市的最高和最低温度的样本数据格式为 csv Mumbai 19 30 Delhi 5 41 Kolkata 20 40 Mumbai 18 35 Delhi 4 42 Delhi 10 44 Kolkata 19 39 我想使用

Spark Python - 如何使用reduce by key来获取最小值/最大值

Spark Python - 如何使用reduce by key来获取最小值/最大值 的相关文章

随机推荐

热门标签

Spark Python - 如何使用reduce by key来获取最小值/最大值的相关文章