通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）

2024-02-07

我有一个 Spark 数据框，就像

id  start_time   feature
1   01-01-2018   3.567
1   01-02-2018   4.454
1   01-03-2018   6.455
2   01-02-2018   343.4
2   01-08-2018   45.4
3   02-04-2018   43.56
3   02-07-2018   34.56
3   03-07-2018   23.6

我希望能够根据以下内容将其分成两个数据框编号列因此，我应该按 id 列分组，按 start_time 排序，并通过保留顺序将 70% 的行放入一个数据帧，将 30% 的行放入另一个数据帧。结果应如下所示：

Dataframe1:
id  start_time   feature
1   01-01-2018   3.567
1   01-02-2018   4.454
2   01-02-2018   343.4
3   02-04-2018   43.56
3   02-07-2018   34.56

Dataframe2:
1   01-03-2018   6.455
2   01-08-2018   45.4
3   03-07-2018   23.6

我正在使用 Spark 2.0 和 python。实现这一点的最佳方法是什么？

我必须这样做的方法是创建两个窗口：

w1 =  Window.partitionBy(df.id).orderBy(df.start_time)
w2 =  Window.partitionBy(df.id)

df = df.withColumn("row_number",F.row_number().over(w1))\
                     .withColumn("count",F.count("id").over(w2))\
                     .withColumn("percent",(F.col("row_number")/F.col("count")))
train = df.filter(df.percent<=0.70)
test = df.filter(df.percent>0.70)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachespark20

通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）的相关文章

从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes

随机推荐

理解Python内存分配和释放

我最近遇到本文 http deeplearning net software theano tutorial python memory management html关于python内存分配在这个页面中它描述了 python 的内存使
在 R 中进行矩阵乘法时的非一致性数组

我正在尝试在 R 中实现内核岭回归公式为 alpha lt lambda I K 1 y 拉姆达 0 1 I 与 K 大小相同的单位矩阵 y 是与 K 具有相同行数的特征向量所以我在 R 中尝试了这个 I lt diag nrow df
如何将 AWS Glue 作业的输出返回到调用 Step Function 工作流程？

AWS Step Functions 允许调用 AWS Glue 作业如下所述 https docs aws amazon com step functions latest dg connect glue html https docs
合并冲突解决

当 Git 中出现合并冲突时如下所示的垃圾会被插入到冲突的文件中三个问题你如何阅读这些注释解决这些合并冲突时可以使用哪些策略是否有适用于 Mac 的 GUI 工具知道如何读取这些文件并并排显示两个版本以便更轻松地解决问题注意
如何从 Composer 中全局删除包？

我运行此命令进行全局安装PHPUnit composer global require phpunit phpunit 3 7 现在我想全局卸载PHPUnit 有任何想法吗要删除全局安装的包请运行 composer global rem
如何保持 ARKit SCNNode 就位

嘿我正在想办法如何保持简单节点的位置当我在 ARKit 中绕着它走动时 Code func renderer renderer SCNSceneRenderer didAdd node SCNNode for anchor ARAnc
有没有一种简单的方法来枚举 Base 中数组的索引？

有时人们想要循环遍历数组的索引例如假设我想创建一个嘈杂的乘法表首先创建一些噪音 julia gt m 0 1 rand 2 3 2 3 Matrix Float64 0 0692654 0 0297861 0 0642931 0 0
Android-相对布局中ScrollView中的LinearLayout

我的布局有点问题我制作了RelativeLayout 其中放置了两个LinearLayout 1 和2 并在它们之间放置了带有LinearLayout 的ScrollView 接下来我将 ScrollView 设置为放置在 Linear
Int64 创建数字范围

我需要能够创建顺序长度超过 19 位的数字范围我尝试使用 Enumerable Range 120000003463014 50000 ToList 这适用于较小的数字但使用上面的代码时我收到一条错误消息指出它对于 int32 数字
SQL Server 2008根据机器设置获取DATETIMEOFFSET

在 SQL Server 2008 R2 上我有以下 T SQL 代码 SELECT CAST GETDATE AS DATETIMEOFFSET 这给了我如下结果 2011 12 26 10 21 13 7970000 00 00 但结
Apache Camel onException

我想捕获路由中的所有异常我添加这个 OnException onException Exception class process new MyFunctionFailureHandler stop 然后我创建 MyFunction F
Heroku 与 NodeMailer 的问题

我在 Heroku 上使用 Nodemailer 时遇到问题非常感谢您的帮助我的应用程序的先前版本曾经在 Heroku 上运行没有问题当我回滚到该版本时它仍然运行良好在该应用程序的最新版本中我没有对访问 Nodemailer 的
在 iOS 中播放简单音效的最佳方法

我发现许多有关在 iOS 中播放声音的相互矛盾的数据每次用户触摸屏幕时仅播放简单的 ping 声音片段的推荐方法是什么我用这个头文件 import
为什么“pip show”或“pip list”对我不起作用？

蟒蛇的pip正在为我安装和更新软件包但一些记录的命令似乎不受支持至少在 OS 10 8 2 和 Python 2 7 2 上运行 1 2 1 时当我尝试时 pip list or pip show
升级时创建表

我一直在努力解决这个问题但我不知道我错过了什么我有一个 Android 应用程序我希望再添加 1 个表但是我无法做到这一点而且我也没有例外不喜欢这些无声杀手下面是我的 SQLiteHelper 类的代码 public clas
GWT 对单元格表进行排序，可能只是我没有看到的

在过去的几个小时里我一直在努力对 GWT CellTable 进行排序这确实是一个愚蠢的问题因为它已经在这里完成了http gwt google com samples Showcase Showcase html CwCellTab
Operator= 和 C++ 中未继承的函数？

在我刚刚进行的测试之前我认为在 C 中只有构造函数不被继承但显然任务operator 是不是太这是什么原因呢是否有任何解决方法来继承赋值运算符是否也是如此operator operator 所有其他函数除了构造函数运算符都
暂停JW播放器？

我有三个标签每个选项卡的滑块中有两个视频问题是当我切换任何选项卡时or单击任何单个视频所有其他视频都应暂停我可以收集所有 id 然后循环使用 stop 但是还有其他更干净更简单的方法吗 jwplayer video pub sto
Universal Analytics - 第三方支付网关

我们的网站目前正在通过跟踪代码管理器使用 Universal Analytics 进行跟踪我们的结账流程包括在前往感谢页面之前重定向至第三方支付网关所以它看起来像这样 site com checkout gt site com pay
通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）

我有一个 Spark 数据框就像 id start time feature 1 01 01 2018 3 567 1 01 02 2018 4 454 1 01 03 2018 6 455 2 01 02 2018 343 4 2 01

通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）

通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%） 的相关文章

随机推荐

热门标签

通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）的相关文章