PySpark - 添加一个新列，其中包含按用户排名

2024-01-26

我有这个 PySpark DataFrame

df = pd.DataFrame(np.array([
    ["[email protected] /cdn-cgi/l/email-protection",2,3], ["[email protected] /cdn-cgi/l/email-protection",5,5],
    ["[email protected] /cdn-cgi/l/email-protection",8,2], ["[email protected] /cdn-cgi/l/email-protection",9,3]
]), columns=['user','movie','rating'])

sparkdf = sqlContext.createDataFrame(df, samplingRatio=0.1)

         user movie rating
[email protected] /cdn-cgi/l/email-protection     2      3
[email protected] /cdn-cgi/l/email-protection     5      5
[email protected] /cdn-cgi/l/email-protection     8      2
[email protected] /cdn-cgi/l/email-protection     9      3

我需要添加一个新列，其中包含按用户排名

我想要这个输出

         user  movie rating  Rank
[email protected] /cdn-cgi/l/email-protection     2      3     1
[email protected] /cdn-cgi/l/email-protection     5      5     1
[email protected] /cdn-cgi/l/email-protection     8      2     2
[email protected] /cdn-cgi/l/email-protection     9      3     3

我怎样才能做到这一点？

目前确实没有优雅的解决方案。如果有必要，你可以尝试这样的事情：

lookup = (sparkdf.select("user")
    .distinct()
    .orderBy("user")
    .rdd
    .zipWithIndex()
    .map(lambda x: x[0] + (x[1], ))
    .toDF(["user", "rank"]))

sparkdf.join(lookup, ["user"]).withColumn("rank", col("rank") + 1)

窗口函数的替代方案更加简洁：

from pyspark.sql.functions import dense_rank

sparkdf.withColumn("rank", dense_rank().over(w))

但效率极低实践中应避免.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

PySpark - 添加一个新列，其中包含按用户排名的相关文章

嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
根据 Pandas 中的列表对多列进行排序

感谢有关如何根据 pandas 中的倍数列表对给定多列进行排序的任何提示如下所示 import pandas as pd sort a a d e sort b s1 s3 s6 sort c t1 t2 t3 df pd DataFra
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0

随机推荐

Spring：在 Java 配置中定义自定义 @Transactional 行为

我希望 Spring 回滚带有注释的方法上的事务 Transactional以防该方法抛出已检查的异常等价于此 Transactional rollbackFor MyCheckedException class public void
RoR Net::HTTP post 错误未定义方法“bytesize”

我目前正在反复用头撞墙直到解决这个问题我正在使用 ruby 1 9 3 p194 和 Rails 我正在尝试发出一个发布请求我可以使用 Net HTTP post form 很好地完成该请求但我不能在这里使用它因为我需要在标头中设
如何在 WPF 中隐藏组合框的项目

有没有办法在 WPF 中隐藏组合框的项目在我的用户控件中有一个列表框其中复选框项目绑定到 ObservableCollection 和一个带有组合框的数据网格
TypeError：“NoneType”对象在 Google Colab 中不可调用

下面导入的包和模型被定义为允许访问构建操作 import matplotlib pyplot as plt import tensorflow as tf import numpy as np import cv2 import os fr
如果单词的第一个字母是元音，如何返回 1，否则返回 0。映射器（MapReduce）问题

这是我正在处理的 MapReduce 问题的第一部分我需要一个函数如果单词的第一个字母以元音开头则返回 1 否则返回 0 该程序通过将文本文件传输到映射器来在终端中运行如下所示 cat test txt python3 mapper
OpenOffice writer - 以编程方式使用单元格公式更新表格

当单元格值为书签并且书签以编程方式更新通过 Java 中的 UNO 调用时我真的很想找出如何强制以编程方式刷新 openoffice writer 3 3 单元格计算 Example start stop duration 9 30
Scala Seq GroupBy 与 Future

我有 2 个案例类 case class First firstId Long pt Long vt Long case class Second secondId Int vt Long a Long b Long c Long d Lo
负值和正值之间的随机数[重复]

这个问题在这里已经有答案了可能的重复在Javascript中生成特定范围内的随机数 https stackoverflow com questions 1527803 generating random numbers in javas
Android SDK 工具：OpenCV 需要 Android SDK 工具修订版 14 或更高版本

我正在尝试使用 kivy opencv 创建一个简单的照片捕获应用程序当我尝试使用 buildozer 创建 apk 文件并将 opencv 放入 spec 文件的需求中时我遇到了此错误 Android fixup g compile
gcc vs clang - 使用 `make_overload` 可变参数 lambda 继承时出现不明确的重载 [重复]

这个问题在这里已经有答案了又一轮的时间到了铿锵与海湾合作委员会 godbolt org 上的实例 https goo gl RDPCKD Test 0 重载的可调用对象 struct Trad auto operator int retu
如何在 VHDL 中将整数作为十六进制写入标准输出？

我可以打印一个integer作为十进制到标准输出 library std use std textio all entity min is end min architecture behav of min is begin process
Sass 父选择器和悬停？

悬停时是否可以触发家长的课程我知道它可以用 jquery 完成但我想做一个纯 css 解决方案 My code navbar form padding left 55px input group width 200px form con
在 apache 上设置 django（mod_wsgi、virtualenv）

我第一次将我的 django 网站投入生产所以请原谅我的无知我正在尝试将我的 django 站点放在 apache 上我已阅读有关 mod wsgi 的文档并尝试了简单的 Hello world 因此配置正常我遇到的问题似乎是与使用
Google Sheets 是否有将范围压缩到一列中的功能？

我想找到内置函数但无济于事所以我不得不将其写在脚本中 function squeeze range return concat range filter n gt n 这个 JS 函数压平了二维数组range并返回它 Note它过滤掉列
如何破解已安装的 perl6 模块源？

我希望能够查看并更改已安装的源代码通过zef perl6 模块我怎样才能做到这一点在我的系统上模块源位于 perl6 sources 还有一些关于模块的元数据文件 perl6 dist 我也可以使用zef locate 显示模块的源
为什么类属性会被记住？

这是一个示例 python 模块 foo py class Foo object a def init self print self a self filla def filla self for i in range 10 self a
使用静态类型语言 (F#) 处理异构数据

F 的主张之一是它允许交互式脚本编写和数据操作探索我一直在尝试使用 F 试图了解它与 Matlab 和 R 进行数据分析工作的比较显然 F 并不具备这些生态系统的所有实用功能但我对底层语言的一般优点缺点更感兴趣对我来说最大的变
如何修复iOS中标签栏控制器的标签栏？

我在选项卡栏的底部添加了自己的图像图标但它只显示灰色方块和标题我怎样才能解决这个问题问题是你的图像缺乏透明度标签栏期望您的图像是透明蒙版也称为模板仅考虑其透明度不透明度程度您的图像是完全不透明的实心图像因此它显示为实心正方
Grails：如何将 Grails 列表导出到 Microsoft Excel？

我有一个包含信息的列表我想将其导出到 Excel 我该怎么做导出插件好用吗我想我不久前看到过一个将文件导出到 Excel 的功能但现在找不到了如果你想actualExcel 文档而不仅仅是 CSV 文件我使用了JExcel库
PySpark - 添加一个新列，其中包含按用户排名

我有这个 PySpark DataFrame df pd DataFrame np array email protected cdn cgi l email protection 2 3 email protected cdn cgi l

PySpark - 添加一个新列，其中包含按用户排名

PySpark - 添加一个新列，其中包含按用户排名 的相关文章

随机推荐

热门标签

PySpark - 添加一个新列，其中包含按用户排名的相关文章