Spark 选择 RDD 中的最高值

2024-03-29

原始数据集是：

# (numbersofrating,title,avg_rating)
newRDD =[(3,'monster',4),(4,'minions 3D',5),....]

我想在newRDD中选择前N个avg_ ratings。我使用以下代码，它有一个错误。

selectnewRDD = (newRDD.map(x, key =lambda x: x[2]).sortBy(......))

TypeError: map() takes no keyword arguments

预期数据应该是：

# (numbersofrating,title,avg_rating)
selectnewRDD =[(4,'minions 3D',5),(3,'monster',4)....]

您可以使用top or takeOrdered with key争论：

newRDD.top(2, key=lambda x: x[2])

newRDD.takeOrdered(2, key=lambda x: -x[2])

注意top按降序排列元素并且takeOrdered上升所以key两种情况下的功能不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

RDD

Spark 选择 RDD 中的最高值的相关文章

Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

Hive 安装问题：Hive Metastore 数据库未初始化

我尝试在树莓派 2 上安装 Hive 我通过解压缩压缩的 Hive 包安装 Hive 并在我创建的 hduser 用户组下手动配置 HADOOP HOME 和 HIVE HOME 运行 hive 时出现以下错误消息蜂巢错误 Statu
如何将文本环绕在右下角的 div 周围？

每次我尝试用 CSS 做一些看似简单的事情时它都不起作用我有一个包含 460x160 图像的内容 div 我想要做的就是将图像放置在右下角并将文本环绕在其周围 div img src text text text text text
检查Tensorflow是否在GPU上运行

I have read many questions and guides on how to understand if Tensorflow is running on GPU but I am still quite confused
现代 x86 CPU 使用什么缓存一致性解决方案？

我对缓存一致性系统在现代多核 CPU 中的功能有些困惑我已经看到基于侦听的协议例如基于 MESIF MOESI 侦听的协议已在 Intel 和 AMD 处理器中使用另一方面基于目录的协议对于多核来说似乎更加高效因为它们不广播而是
Objective-C va_list 和选择器

是否可以使用 selector and performSelector 或类似使用变量参数列表的方法我正在编写一个可以分配委托来覆盖默认行为的类在存在委托选择方法的情况下对该类的实例进行的调用将被转发到相同的相应委托方法其中一些方
javax.security.auth.login.LoginException：安全异常

我正在尝试使用 GlassFish v3 1 2 和 JSF 2 1 以及 primeFaces 3 4 2 设置容器管理的安全性值 HexValue 与数据库匹配但出现以下异常我尝试了 Base64 编码器但结果相同计算出的值和
程序启动时随机键入后，main.m 第 14 行中的 EXE BAD ACCESS 出现错误？

当我在 Xcode 4 1 和 iOS SDK 4 3 中的全新基于视图的应用程序项目中通过键盘随机键入时出现了这个奇怪的崩溃 EXE BAD ACCESS 错误当我创建基于视图的应用程序项目后按运行时出现一个空白屏幕当我开始按键盘
为什么数组的类型推导优先考虑指向第一个的指针而不是对数组的引用？

int v 1 auto p1 v auto p2 v auto p3 v p1属于类型int 同样适用于p3 特别是在这个微不足道的样本中我发现p2 int 1 更有用因为它固有的数组语义例如我可以申请sizeof on p2给予与
Eclipse Google -App -Engine“不会增强”

第一次日食无法摆脱这个错误已经尝试了谷歌上所有建议的修复方法持久类 com blahb blahblah master UserToken 类似乎没有得到增强您可能需要重新运行增强器并检查输出中的错误数据库中没有表但操作需要它
如何在引导日期选择器中更改日期格式（dd-mmm-yyyy）

Script Textbox
导出导入的模块

我有两个 javascript 模块如下所示 inner mod js export function myFunc mod js import as inner from inner mod 我想出口myFunc from mod js
Typescript 用循环动态创建数组

我正在创建一个模拟类用于为我的 Angular2 TypeScript 项目生成示例数据我仍然是编程初学者并且对有关 TypeScript 的可用信息感到困惑我的问题我想创建 100 个项目并将它们保存在一个数组中这 100 个
如何创建表单类的新实例，然后将其作为 acDialog 框打开（暂停其他代码）？

Problem 我有一个复杂的搜索表单需要多次同时打开以允许用户同时进行多个搜索我发现可以使用以下命令打开表单的实例因为它是一个类 Option Compare Database Option Explicit Array to
Plotly R - 错误“`line.width`当前不支持多个值。”

当我运行以下命令时 interactive plot lt plot ly data vep wes aff rare summary x n y mean af type scatter mode markers hoverinfo te
为什么 Android 不使用更多的枚举？

我开始非常喜欢在代码中使用 C 和 Java 枚举原因如下它们比整数字符串或布尔标志集更加类型安全它们会产生更具可读性的代码将枚举设置为无效值比 int 或字符串更困难它们可以轻松发现变量或参数的允许值我读到的所有内容都表明它
分支/更改未合并，尽管 Gerrit 声称，它是

每次我都看到merged关于我在 Gerrit 中的变化的状态我确实git pull origin 我可以清楚地看到我的更改分支实际上尚未合并到 master 中请检查我的 Gerrit 工作流程并告诉我我做错了什么或缺少什么在
用于清除 Git Bash 屏幕（包括输出缓冲区）的命令

Git 中是否有任何命令可以清除屏幕例如在window命令行中执行了很多代码后如果输入cls 那么它会清除之前的所有代码所以我想要 Git 中相同类型的功能所以任何人都可以告诉我命令名称实际上你正在寻找一个Unix用户环境命令 c
Firefox 中 Window.getCompulatedStyle 未实现接口 Element 错误

我想将一些数据附加到 HTML 元素因此我使用了以下代码 bookListDiv append data HTMLString 一切都正常但是我想在显示此元素时添加淡入动画因此我将其修改为 data HTMLString hide a
是否可以对任何文本分类应用 PCA？

我正在尝试用 python 进行分类我正在对网页使用朴素贝叶斯多项式NB分类器将数据从网络检索到文本稍后我对此文本进行分类网络分类现在我尝试对这些数据应用 PCA 但 python 给出了一些错误我的朴素贝叶斯分类代码 fro
Spark 选择 RDD 中的最高值

原始数据集是 numbersofrating title avg rating newRDD 3 monster 4 4 minions 3D 5 我想在newRDD中选择前N个avg ratings 我使用以下代码它有一个错误 sele

Spark 选择 RDD 中的最高值

Spark 选择 RDD 中的最高值 的相关文章

随机推荐

热门标签

Spark 选择 RDD 中的最高值的相关文章