来自 Pyspark ArrayType 列的随机样本

2023-12-31

我在 Pyspark 数据框中有一列，其结构如下

Column1
[a,b,c,d,e]
[c,b,d,f,g,h,i,p,l,m]

我想返回另一列，其中随机选择每行中的每个数组，以及函数中指定的数量。

所以像data.withColumn("sample", SOME_FUNCTION("column1", 5))返回：

sample
[a,b,c,d,e]
[c,b,h,i,p]

希望避免使用 python UDF，感觉应该有一个可用的函数？

这有效：

import random
def random_sample(population):
    return(random.sample(population, 5))

udf_random = F.udf(random_sample, T.ArrayType(T.StringType()))
df.withColumn("sample", udf_random("column1")).show()

但正如我所说，最好避免使用 UDF。

对于 Spark 2.4+，请使用shuffle https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.shuffle and slice https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.slice:

df = spark.createDataFrame([(list('abcde'),),(list('cbdfghiplm'),)],['column1'])

df.selectExpr('slice(shuffle(column1),1,5)').show()
+-----------------------------+
|slice(shuffle(column1), 1, 5)|
+-----------------------------+
|              [b, a, e, d, c]|
|              [h, f, d, l, m]|
+-----------------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

Random

PySpark

Sample

来自 Pyspark ArrayType 列的随机样本的相关文章

通过API更新Twitter背景

我在通过 Twitter 的 API 更新背景时遇到了一些问题 target url http www google com logos 11th birthday gif ch curl init curl setopt ch CURLO
将数组数组的字符串转换为 Javascript 数组数组的优雅方法？

我有一个 ajax 请求它返回一个值列表如下所示 5 5 5 6 15 15 7 13 12 我需要它是一个带有数字的 javascript 数组 5 5 5 6 15 15 7 13 12 我尝试将和替换为然后用分割和 for
如何循环遍历颜色数组以更改按键背景（按下/向下）

互联网如果这与其他人没有什么关系请原谅我但我会将其留在这里以防这是一个有效的问题我正在尝试创建一个文本区域字段其中用户每次按下键 a z 都会触发背景颜色更改在数组中列出我一直在用 JQuery 做这件事我想我已经很接近了
PHP if in_array 表示多个值

我有一个由 3 到 12 个值之间的任意位置生成的数组它根据帐户信息生成该数组 result ad gt user gt groups user username 我想检查这个数组是否有多个值大约 4 或 5 个如果其中有任何一个值
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
PHP 中两个关联多维数组的值求和

我正在尝试对两个关联数组的值求和这是第一个数组 Array Jan 01 2013 gt Array COM gt 100 RES gt 200 Oct 28 2014 gt Array COM gt 300 RES gt 400 这是第
Excel - 查找列中不是错误或空白的最后一个值

我需要在 Excel 电子表格的一列中找到最后一个非错误非空白值该列可以有多个 N A 实例它们与实际值交替有多种解决方案可用于查找最后一个非空单元格但这些解决方案不考虑错误特别是如果最后一个非空单元格出现错误在这种情况下解
如何使用 BufferedReader 对象从 Java 中的一行读取多个整数值？

我正在使用 BufferedReader 类读取 Java 程序中的输入我想读取用户的输入该用户可以在带空格的单行中输入多个整数数据我想读取整数数组中的所有这些数据输入格式用户首先输入他她想要输入的数字数量然后在下一行中使用多
当key未知时如何获取js对象中的属性值

我有一个对象数组 a 81 25 p 81 25 81 26 p 81 26 我想循环遍历数组并获取值p在每个元素中 for var key in a console log a key outputs 81 25 Object How d
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
C - 对浮点数组进行排序，同时跟踪索引

我有一个包含 3 个浮点值的数组 float norms 3 norms 0 0 4 norms 1 3 2 norms 2 1 7 我想按降序对这个数组进行排序同时跟踪数组中值的原始索引换句话说给定数组norms 0 4 3 2 1
在这种情况下 b 是标量对象吗？

include
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口
在哪里可以获得几乎所有英语单词的列表？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想生成一些随机文本我尝试写一个基本的Java程序 int nowords r nextInt 2000 int i j for i 0
为神经网络打乱两个 numpy 数组

我有两个 numpy 数组用于输入数据 X 和输出数据 y X np array 2 3 sample 1 x 16 4 dtype float sample 2 x y np array 1 0 sample 1 y 0 1 dtype
将数组与其自身连接起来以复制它

In Python gt gt gt 1 2 3 4 2 1 2 3 4 1 2 3 4 走什么路JavaScript 目前使用 var data 1 2 3 4 data concat data 1 2 3 4 1 2 3 4 JavaS
在Matlab中对字符进行分组并形成矩阵

我有 26 个字符 A 到 Z 我将 4 个字符组合在一起并用空格分隔以下 4 个字符如下所示 abcd efgh ijkl mnop qrst uvwx yz 我的Matlab编码如下 str abcdefghijklmnopqrst
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
返回年份数组作为年份范围

我正在尝试查询一个包含以下内容的表character varying 年份列并将这些年份作为逗号分隔的年份范围字符串返回年份范围将由数组中存在的连续年份确定不连续的年份年份范围应以逗号分隔数据类型的原因是character var

随机推荐

Webpack 4 devtool 选项不适用于 webpack-dev-server

在我决定发布这个问题之前我做了很多事情作为背景调查所以我的问题是我使用 webpack v4 6 0 和 webpack dev server v3 1 3 他们一起工作得很好但现在我正在尝试为我的应用程序设置源映射似乎开发工具
如何续订 Azure API 管理证书

使用我们的 Azure API 管理端点配置的证书今天过期了显然它的有效期只有一年我们如何更新它我们认为使用 MS 提供的默认 API 管理证书意味着我们不必手动担心更新它但事实似乎并非如此证书过期消息 https i stack
我的 VBA Excel 宏中的防病毒误报

我刚刚遇到了一个更烦人的问题 https stackoverflow com questions 3339136 antivirus false positive in my executable 突然 Windows Defender 开
Netbeans7.1 和 JavaFX 2.0 - FXML 代码完成不起作用

我开始学习 JavaFX 2 0 并安装了 Netbeans 7 1 java 7 02 SDK 其中包含 JavaFX 2 一切似乎都正常示例项目编译并运行良好我的问题是代码完成不适用于 FXML 文件我按 ctrl space
Matlab 快速傅立叶变换 / fft 用于时间和速度

我有一个 2 列向量其中包含数据子集的时间和速度如下所示 5 40 10 37 15 34 20 39 等等我想要对速度进行傅立叶变换以获得频率我将如何使用快速傅里叶变换 fft 来做到这一点如果我的矢量名称是sampleData
Python - 处理混合编码文件

我有一个文件大部分是 UTF 8 但也有一些 Windows 1252 字符我创建了一个表来将 Windows 1252 cp1252 字符映射到其 Unicode 对应字符并希望使用它来修复错误编码的字符例如 cp1252 to
通过使其成为包装器来优化斐波那契数列递归函数

斐波那契数列的递归定义在效率方面存在问题它的定义如下 private fib int n if n lt 2 return n else return fib n 1 fib n 2 假设我们调用 fib 5 这使得 1 次调用 fib
如何在 Amazon OpsWorks 上设置 Chef 的日志输出级别？

我的问题类似于如何在控制台中显示 Opscode Chef bash 命令的输出 https stackoverflow com questions 17813592 how can i display the output of a o
在android中动态地将字体添加到textview中

我是安卓新手我有一个文本视图想为其分配自定义字体我的字体文件 ttf 位于服务器上我必须在代码中使用该文件来动态设置字体即时我不想将文件放在资产文件夹或任何原始文件夹中如何实施从服务器下载字体保存到SD卡 Use Type
修复翻译错误

liferay 门户中有很多地方翻译成我的语言 sk SK 是错误的是否可以用 hook 重写那些不好的翻译任何其他想法都欢迎多谢是的你可以做到 in your liferay hook xml文件添加要覆盖的语言文件的条目就像
嵌套在结构中的 LINQ 和分组依据数据

我的结构大致如下 List
android.view.WindowManager$BadTokenException：无法在 Toast 处添加窗口

当我在我的 Android 应用程序上频繁执行某些操作我的假设是由于 Toast 消息时出现以下错误我没有得到此问题的确切位置我可以从某人那里获得帮助来解决相同问题吗 beginning of crash 10 04 16 13
C# 通用约束问题

我收到以下错误类型 Test ICacheProvider 不能用作类型参数泛型类型或方法中的 TStorageProvider StorageManager Test IFileInfo 没有隐式引用转换自 StorageManag
将 blob 转换为图像流并将其分配给 jLabel

我只是想将数据库中的 blob 字符串转换为字节数组然后在转换后将其转换为缓冲图像然后将其分配给标签这是我的代码 package ims project import java sql import javax swing impor
jQuery 仅获取此元素的父同级元素

我不知道如何写这个请参阅我的标记结构该结构在页面上重复多次 div class module div class archive info span class archive meta open span div div class
Google 地图 fitBounds 无法正常工作

我对 googlemaps fitBounds 函数有疑问 for var i 0 i lt countries length i var country countries i var latlng new google maps Lat
JavaScript 中去除字符串中的所有非数字字符

考虑一个非 DOM 场景您希望使用 JavaScript ECMAScript 从字符串中删除所有非数字字符范围内的任何字符0 9应该保留 var myString abc123 8
如何高效解析固定宽度文件？

我正在尝试找到一种有效的方法来解析包含固定宽度行的文件例如前 20 个字符代表一列从 21 30 开始代表另一列依此类推假设该行包含 100 个字符将一行解析为多个组成部分的有效方法是什么我可以对每行使用字符串切片但如果行很
具有多个条件的布尔索引[重复]

这个问题在这里已经有答案了我有一个熊猫DF我需要去哪里filter输出一些包含特征 a 和特征 b 的值 0 的行为了检查这些值我运行以下命令 DF1 DF DF a 0 它返回正确的值同样通过这样做 DF2 DF DF b 0
来自 Pyspark ArrayType 列的随机样本

我在 Pyspark 数据框中有一列其结构如下 Column1 a b c d e c b d f g h i p l m 我想返回另一列其中随机选择每行中的每个数组以及函数中指定的数量所以像data withColumn samp

来自 Pyspark ArrayType 列的随机样本

来自 Pyspark ArrayType 列的随机样本 的相关文章

随机推荐

热门标签

来自 Pyspark ArrayType 列的随机样本的相关文章