pyspark 数据框中的自定义排序

2024-05-21

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序？我理想地寻找 pandas 分类数据类型提供的功能。

因此，给定一个数据集Speed列，可能的选项是["Super Fast", "Fast", "Medium", "Slow"]。我想实现适合上下文的自定义排序。

如果我使用默认排序，类别将按字母顺序排序。 Pandas 允许将列数据类型更改为绝对的定义的一部分给出了自定义排序顺序：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Categorical.html

您可以使用orderBy并使用定义您的自定义排序when:

from pyspark.sql.functions import col, when

df.orderBy(when(col("Speed") == "Super Fast", 1)
           .when(col("Speed") == "Fast", 2)
           .when(col("Speed") == "Medium", 3)
           .when(col("Speed") == "Slow", 4)
           )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

apachespark

PySpark

apachesparksql

pyspark 数据框中的自定义排序的相关文章

Python - 包和设置文件

我有一个 python 包需要从我的项目目录中提取设置这是我的项目当前的结构 Project bin mypackage package files Project myproject project files start py se
如何在 pygame 中聚焦光线或如何仅绘制窗口的某些圆形部分？

对于这一点如果您熟悉它请想想超级马里奥制造2 中嘘关卡中的黑暗模式我试图在角色周围创建一个圆形聚光灯这也将使圆圈范围内的任何内容都可见例如部分站在地板上敌人或场景中的任何其他物体我的计划是首先绘制圆圈聚光灯然后绘制场景
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
将列表传递给 PyCrypto 中的 AES 密钥生成器

我尝试使用 Pycrypto 生成 AES 密钥但收到以下错误类型错误列表不支持缓冲区接口对于以下声明 aescipher AES new mykey AES MODE ECB mykey 属于类型list并包含 18854347
int 对象在尝试对数字的数字求和时不可迭代？ [复制]

这个问题在这里已经有答案了我有这个代码 inp int input Enter a number for i in inp n n i print n 但它抛出一个错误 int object is not iterable 我想通过将每个
按字段名称对命名元组列表进行排序的 Pythonic 方法

我想对命名元组列表进行排序而不必记住字段名的索引我的解决方案看起来相当尴尬希望有人能有一个更优雅的解决方案 from operator import itemgetter from collections import namedtu
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
如何抑制 pyinstaller 生成的可执行文件窗口中的所有警告

我已经使用 pyinstaller 从 python 文件生成了可执行文件该程序按其应有的方式工作但在我想隐藏的窗口中出现了一条警告消息当 python 文件在 IDE 中运行时以下行会抑制所有警告消息 warnings filte
如何在树莓派上更新到最新的 python 3.5.1 版本？

我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了我有一个计划在其上运行的程序但它仅与 Python 版本 3 5 0 或 3 5 1 兼容并且我在互联网上找到的所有内容似乎都已经过时与 Python 2 有关或
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
尝试修复我的功能

我正在开发一个函数我必须返回一个元组其中第一个参数是最大数字的 str 第二个参数是 int 列表这是示例以及我为该函数编写的内容投票 G G N G C G 1 3 0 1 您必须将最大值的位置映射到正确的一方 parties N
收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
在字典理解中为 locals() 添加下标失败并出现 KeyError [重复]

这个问题在这里已经有答案了我对 Python 的奇怪行为感到困惑locals 基本上我想从字典中获取一个项目locals 在字典理解中但它失败了这是一个非常基本的事情所以 gt gt gt foo 123 gt gt gt bar
如何从python导入路径中删除当前目录

我想使用 Mercurial 存储库hg本身也就是说我克隆了 Mercurialhttps www mercurial scm org repo hg https www mercurial scm org repo hg并想运行一些h
用于桌面数据库应用程序的 Python 框架

是否有一个框架可以为Python开发桌面数据库应用程序一些带有CRUD屏幕的屏幕我正在寻找类似于 Windows 窗体的东西能够将 TextField Combos 和其他 UI 隐喻与datasets连接到关系数据库例如 MySQL
连接运算符 + 或 ,

var1 abc var2 xyz print literal var1 var2 literalabcxyz print literal var1 var2 literal abc xyz 除了带有的自动空格之外两者有什么区别哪个通
Tensorflow ctc_loss_calculator：找不到有效路径

当运行我的神经网络双向 LSTM 进行音频识别时我使用连接主义时间分类 CTC 但在某些时候训练网络时我几乎每批都会收到来自 Tensorflow 的警告 W tensorflow core util ctc ctc loss cal

随机推荐

无法使用 Git 部署从多项目解决方案部署正确的网站到 Azure

我有一个解决方案它有一个 mvc 网站 WebApplication1 该网站依赖于解决方案中的另一个项目 WebAppCore 源代码托管在 Visual Studio Online 上的 git 中我配置了持续集成一切都构建得很好
使用 SendKeys 向 IE 11 发送“@”特殊字符

我正在尝试使用 Internet Explorer 11 中的 SendKeys 方法将特殊字符发送到文本框尝试在其他浏览器中发送特殊字符时我没有遇到此问题但 Internet Explorer 在尝试发送时发送完全不同的字符特殊字符
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
EAR 和 WAR 类加载器

我对 JBoss 类加载器很困惑任何人都可以详细描述类加载器的工作原理吗我只需要做一件事如果 WAR 没有找到具有自己的类加载器的类他会将搜索委托给其父类加载器该父类加载器必须是 EAR 的针对上述情况我的申请需要进行哪些更改
在 R 中显示变量的精确值

gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢抱歉如果这是一个愚蠢的问题我尝试在谷歌上搜索 R 和精确或圆形但我得到的只是有关如何舍入的文章先感谢您所
为什么我的 @OneToMany 属性出现主键违规？

我有一个实体 Entity public class Student GeneratedValue strategy GenerationType AUTO Id private long id OneToMany private Set
删除 Django 1.7 中的应用程序（和关联的数据库表）

是否可以使用 Django 1 7 迁移来完全删除卸载应用程序及其所有跟踪主要是其所有数据库表如果没有在 Django 1 7 中执行此操作的适当方法是什么 python manage py migrate
使用控制台记录器的控制台应用程序不会写入最终消息。轻松重现

Windows 上使用 LoggerFactory 的 net 6 控制台应用程序最终消息不会出现在控制台上 loggerFactory Dispose 没有帮助 Ilogger 没有 Dispose 方法这是一个复制品大约会出现 2
Android BLE 扫描在后台几分钟后停止

当我为公司开发新冠肺炎接触者追踪应用程序时我在后台遇到了 Android 扫描停止问题这是我尝试过的添加前台服务禁用手机中所有与电池相关的优化选项启用后台运行的应用程序测试设备搭载 Android 10 的 Galaxy S2
在两次之间每分钟执行一次 Cronjob

我需要在 crontab 中每分钟运行一个 bash 脚本8 45am and 9 50am每天的 Code 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 8 home pull sh gt ho
Typescript 函数返回类型取决于参数的数量或类型

假设我有一个函数它应该根据参数的数量和类型返回不同的类型我该如何在 TypeScript 中描述这一点 function foo t number string function foo t number s string boolea
在 BIRT 中输入参数后更新数据集查询

在 BIRT 报告设计中传递参数后如何更改或更新数据集的查询详细说明我有一个如下所示的查询 WHERE 该参数标记可以保存不同的值在用户输入参数后它看起来像这样例如 WHERE column name 1 or WHERE co
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
jQuery .val() 返回单选按钮的未定义

我正在尝试获取 jQuery 中选中的单选按钮值但它返回的值是未定义我搜索了这个问题的解决方案但对我来说没有任何作用我的 HTML 代码
将 jquery-mobile 与 Webpack 结合使用

我正在尝试使用 webpack 加载 jquery mobile 但到目前为止还没有运气我知道 jquery mobile 依赖于 jquery ui 而 jquery ui 又依赖于 jquery 如何在 Webpack 中设置这样的场
协调多个依赖的 Mercurial 存储库版本的推荐方法？

好吧经过几个小时的阅读和反复试验它终于击中了我 Mercurial 并不真正想做 SubRepos 至少不想与 TortoiseHg 和 Bitbucket 一起使用如果我错了并且您不希望对类似于当然它有效您没有阅读官方文档吗
Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
Rails - 连接多个表

我有以下型号 class Company lt ActiveRecord Base has many price movements has many goods movements end class PriceMovement lt A
PHP函数返回值到html标签

我想获取函数的返回值并将其显示到特定的id 在我的 Class php 中我有一个名为 login 的函数用于验证密码是否正确不正确
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的

pyspark 数据框中的自定义排序

pyspark 数据框中的自定义排序 的相关文章

随机推荐

热门标签

pyspark 数据框中的自定义排序的相关文章