pyspark - 在 Spark 会话中获得一致的随机值

2024-01-12

我想将一列随机值添加到数据帧（每行都有一个 id）对于我正在测试的东西。我是努力在 Spark 会话中获得可重复的结果 - 每个行 id 的随机值相同。我能够通过使用重现结果

from pyspark.sql.functions import rand

new_df = my_df.withColumn("rand_index", rand(seed = 7))

但只有当我在同一个 Spark 会话中运行它时它才有效。重新启动 Spark 并运行脚本后，我没有得到相同的结果。

我还尝试定义一个 udf，测试是否可以在一个间隔内生成随机值（整数）并使用random从Python与随机种子 set

import random
random.seed(7)
spark.udf.register("getRandVals", lambda x, y: random.randint(x, y), LongType())

但无济于事。

有没有办法确保 Spark 会话中可重复生成随机数使得行 id 获得相同的随机值？我真的很感激一些指导:) 谢谢您的帮助！

我怀疑您获得的种子的通用值相同，但根据分区的顺序不同，分区的顺序受从磁盘读取时数据分布的影响，并且每次可能有更多或更少的数据。但实际上我并不了解你的代码。

rand 函数生成相同的随机数据（否则种子的意义是什么），并且分区以某种方式获得它的一部分。如果你看的话你应该猜出图案！

这是 2 个不同基数数据帧的示例。您可以看到种子给出了相同或超集的结果。因此，在我看来，排序和分区很重要。

from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.functions import col
df1 = spark.range(1, 5).select(col("id").cast("double"))
df1 = df1.withColumn("rand_index", rand(seed = 7))                                   
df1.show()

df1.rdd.getNumPartitions()
print('Partitioning distribution: '+ str(df1.rdd.glom().map(len).collect()))

returns:

+---+-------------------+
| id|         rand_index|
+---+-------------------+
|1.0|0.06498948189958098|
|2.0|0.41371264720975787|
|3.0|0.12030715258495939|
|4.0| 0.2731073068483362|
+---+-------------------+

8 partitions & Partitioning distribution: [0, 1, 0, 1, 0, 1, 0, 1]

更多数据也是如此：

...
df1 = spark.range(1, 10).select(col("id").cast("double"))
...

returns:

+---+-------------------+
| id|         rand_index|
+---+-------------------+
|1.0| 0.9147159860432812|
|2.0|0.06498948189958098|
|3.0| 0.7069655052310547|
|4.0|0.41371264720975787|
|5.0| 0.1982919638208397|
|6.0|0.12030715258495939|
|7.0|0.44292918521277047|
|8.0| 0.2731073068483362|
|9.0| 0.7784518091224375|
+---+-------------------+

8 partitions & Partitioning distribution: [1, 1, 1, 1, 1, 1, 1, 2]

您可以在 Spark 会话内或会话外看到 4 个常见的随机值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Random

PySpark

apachesparksql

pyspark - 在 Spark 会话中获得一致的随机值的相关文章

向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
SAS 随机采样

在 SAS 中我创建了一个程序该程序将从数据集中随机获取 50 个观测值并计算观测值的平均值 data subset drop i samplesize samplesize 50 obsleft totobs do i 1 to s
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
打乱列表并返回副本

我想对数组进行洗牌但我找到的只是类似的方法random shuffle x from 在 Python 中随机化字符串列表的最佳方法 https stackoverflow com questions 1022141 best way t
为什么 rand() 总是返回相同的值？ [复制]

这个问题在这里已经有答案了可能的重复在C中生成随机数 https stackoverflow com questions 3067364 generating random numbers in c 使用 rand 生成随机数 http
如何使用 netlogo 生成 0.3 < X < 0.7 范围内的数字

正如标题所示希望生成 0 3 我目前使用 while 循环来检查随机浮点数是否在该范围内我想知道是否有更好的方法来做到这一点 0 3 random float 0 4会给你 0 3 如果你真的不想要 0 3 我想你总是可以循环那个我不
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
如何通过从字母数字字符中采样来创建随机字符串？

我尝试编译以下代码 extern crate rand 0 6 use rand Rng fn main rand thread rng gen ascii chars take 10 collect

随机推荐

重写谷歌自定义搜索字符串

我之前的自定义谷歌搜索是这样显示的第一个链接 http raskim lt controller function 音乐 cx 014092587915392242087 3Agc6l6xlpkmq cof FORID 3A11 q th
Azure 云应用程序 ERR_CONNECTION_TIMED_OUT

我想在 azure 容器服务中部署基于容器的应用程序并遵循本教程 https learn microsoft com en us azure container service dcos swarm container service m
禁止创建临时对象

在调试多线程应用程序中的崩溃时我终于在以下语句中找到了问题 CSingleLock m criticalSection TRUE 请注意它正在创建 CSingleLock 类的未命名对象因此临界区对象在此语句之后立即解锁这显然不是程
Delphi GUI 设计规范和指南 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我一直在寻找一种方法来标准化我的应用程序布局以提高我的工作效率因为我浪费了太多时间在每个表单和对话框
PackedArrays 有快速的产品操作吗？

在 Mathematica 中包含所有机器大小的整数或浮点数的向量或矩形数组可以存储在压缩数组中这些对象占用的内存较少并且某些操作对它们的速度要快得多 RandomReal如果可能的话生成一个压缩数组压缩数组可以用以下命令解压
猜测C2DM是否已连接的方法

我正在尝试对是否可以接收 C2DM 消息进行最佳猜测我创建了一个应用程序它依赖于在物理上无法访问的情况下将信息推送到手机我知道 C2DM 不能保证传送但我至少想知道何时可以传送消息如果不是我们就会退回到我们自己的推送服务并且实
检查 pandas 数据框列的字符串类型

我有一个相当大的 pandas 数据框 11k 行和 20 列一列具有混合数据类型主要是数字浮点其中散布着少量字符串在使用混合列中的数据执行一些统计分析之前我通过查询其他列来对该数据帧进行子集化但如果存在字符串则无法执行此操
如何在自定义错误页面中访问 HTTP StatusDescription

当操作 asp net mvc 5 在数据库中找不到某些内容时用户必须看到一个带有简短自定义错误消息的页面例如 Invoice 5 does not exist 此外响应必须有一个404HTTP 代码另一个例子当操作被不正确地调用
使用 Apache POI 在 java 中读取和写入 xls 和 xlsx excel 文件

我正在编写一个程序需要读取和写入 Excel 文件无论格式如何 xls 或 xlsx 我知道 Apache POI 但它似乎有不同的类来处理 xls 文件 HSSF 和 xlsx XSSF 文件任何人都知道我如何实现我在这里想做的事情
如何在node.js的客户端包含javascript？

我是 Node js 和 javascript 的初学者我想在 html 代码中包含外部 javascript 文件这是 html 代码 index html 并且这里是 javascript 代码 simple js documen
使用 ITextSharp 将 tif 转换为 pdf 的性能不佳

Summary 如何减少将 tif 转换为 pdf 所需的时间itextsharp 背景我正在使用 C 将一些相当大的 tif 转换为 pdfitextsharp 而且我的表现非常糟糕每个 tif 文件大约 50kb 某些文档最多有 1
Webpack 源映射指向缩小包

我正在为现有项目设置 Webpack 构建过程并且遇到了源映射的一些问题我在用devtool eval source map 如果浏览器中发生错误堆栈跟踪中的每个文件行号都指向 Webpack 包中压缩为一行的文件例如堆栈跟踪的
Android - 视图实例在屏幕旋转时获取空值

我正在使用 Kotlin Android 扩展通过其 id 直接访问视图我有一个进度条我可以使用 id 直接在片段中访问它即progress bar
如何使用 Jasmine 测试 XMLHttpRequest

如何在没有 jQuery 的情况下测试 XMLHttpRequest 或纯 Javascript AJAX 上的 onreadystatechange 我这样做是因为我正在开发 Firefox 扩展我想我必须使用间谍但不知道如何使用因
对端口“COM1”的访问被拒绝

我试图打开 COM1 端口但收到此错误消息访问端口 COM1 被拒绝我正在编写一个通过 NET 发送短信的程序我预计可能会出现错误但不应出现访问被拒绝错误请给我任何解决方案如果端口需要任何访问权限那么我该怎么做首先确
OOAD书籍推荐：从理论到实践[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我致力于成为一名优秀的面向对象开发人员 OO 引起了我的兴趣因为我理解模式知道为什么组合比继承给你更
MVC UpdateModel 可以使用企业库 VAB 吗？

或者我应该说将 Enterprise Library 5 VAB 与 MVC 结合使用的最简洁方法是什么我目前使用的形式 ActionResult Save int id FormCollection form SomeModel mo
Azure 容器实例在没有明显原因的情况下被终止

我们每天运行容器实例组由逻辑应用程序触发容器基本上连接到队列处理它并结束有时根据事件日志容器被杀死日志中没有任何内容除了我们的应用程序所做的最后一件事并且它不是在处理结束时我检查了资源我们远远低于限制另外这种情况并
如何验证以下场景的表单？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我对网络开发比较陌生我的网站使用 HTML jQuery 和 PHP 我想设计一个表单并通过以下方式验证它一个简单的网页有输入框 2
pyspark - 在 Spark 会话中获得一致的随机值

我想将一列随机值添加到数据帧每行都有一个 id 对于我正在测试的东西我是努力在 Spark 会话中获得可重复的结果每个行 id 的随机值相同我能够通过使用重现结果 from pyspark sql functions import

pyspark - 在 Spark 会话中获得一致的随机值

pyspark - 在 Spark 会话中获得一致的随机值 的相关文章

随机推荐

热门标签

pyspark - 在 Spark 会话中获得一致的随机值的相关文章