有没有办法在 Spark 中随机排列集合

2024-04-17

我需要用 2.2*10^9 行打乱文本文件。有没有办法将它加载到 Spark 中，然后并行地洗牌每个分区（对我来说，在分区范围内洗牌就足够了），然后将其溢出回文件？

要仅在分区内进行洗牌，您可以执行以下操作：

rdd.mapPartitions(new scala.util.Random().shuffle(_))

打乱整个 RDD：

rdd.mapPartitions(iter => {
  val rng = new scala.util.Random()
  iter.map((rng.nextInt, _))
}).partitionBy(new HashPartitioner(rdd.partitions.size)).values

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

有没有办法在 Spark 中随机排列集合的相关文章

Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的

随机推荐

尝试将 CABasicAnimation 位置和图层不透明度延迟 3 秒，但是

我试图使用 setBeginTime 将图层的不透明度和位置的动画延迟 3 秒我将图层命名为boxLayer 动画进展顺利但在前 3 秒内该图层不应显示该图层以其最终位置和不透明度显示不应该组动画并不能解决该问题有人可以帮忙吗
C++2a 合约编程和编译器

我有兴趣研究最近接受的C 20 的合约编程 https en cppreference com w cpp language attributes contract用于学习和调查目的当我四处寻找编译器支持时我很失望没有找到任何支持两个
Laravel dusk 不工作 .env.dusk.local

我有一个应用程序我想使用 Laravel Dusk 我创建了一个名为 env dusk local带有用于测试的数据库和名为的文件 env使用我的默认数据库我运行 php artisan 命令并创建了一个用户 register 在我使用
golang 中有惯用的范围语义吗？

我想知道是否有任何惯用的方式来表示scoped语义我所说的范围是指范围互斥体一个衬垫而不是显式锁定延迟解锁记录函数或任何代码块的入口和出口测量执行时间前两个项目符号的示例代码 package main import log
从 DynamoDb 查询的 Python 脚本未提供所有项目

我编写了以下 python 代码来从表中获取数据但它没有按照我想要的方式获取所有项目当我检查 DynamoDb 的 AWS 控制台页面时我可以看到比从脚本中获得的条目多得多的条目 from future import print fu
两个本体之间的映射

我如何使用 owl sameas 来链接两个本体如果我有本体A c rdf type owl Class 和本体B d rdf type owl Class 我想将两个本体与共享概念 c 和 d 联系起来我读过有关 owl sameas
Flutter：webview_flutter 更新同一 webview 小部件中的 url

嘿我正在尝试创建一个屏幕显示带有底部应用栏的网络视图因此您加载网络视图当点击底部应用栏中的某个项目时其他网站应该加载到同一个网络视图中除了我最初解析的网站之外我不知道如何打开另一个网站我尝试使用 setState 更新网址
处理kendo调度程序中的销毁事件

我正在使用剑道调度程序调度程序网格中添加了事件当鼠标悬停在每个事件上时右上角会出现一个小 x 即该事件的销毁事件单击该事件时会显示一条警告消息您确定要删除此事件吗如果单击是它将继续并删除该事件这是我的要求正如您在上面看到
WSO2 身份服务器 - Oauth 2.0 - Java 签核示例

我为 Oauth2 身份验证流程编写了一个基于 Java 的签核例程令牌撤销请参阅下面的代码实现遵循手册中描述的 cURL 协议说明 here https docs wso2 com display IS500 OAuth Token
下划线模板 - 更改标记标记

开箱即用的下划线模板使用标记对于原始的和用于 HTML 转义内容我知道您可以使用以下方法更改标记 templateSettings interpolate g 但这与原始内容和转义内容有何关系在我看来你最终只能得到一种类型的标记或
ScalaCheck 生成 BST

我正在尝试使用 ScalaCheck 创建 BST 的 Gen 但是当我调用 sample 方法时它给出了 java lang NullPointerException 我哪里错了 sealed trait Tree case class
如何从
标签java中提取内容

我有一个严重的问题我想从标签中提取内容例如 div class main content div class sub content Sub content here div Main content here div 我期望的输出是
机器人按键在 Linux 中不工作

我多次使用 Robot 类但在 Windows 中没有遇到任何问题但这次我使用的是 Fedora 如果我尝试一下 keyPress KeyEvent VK WINDOWS 它不工作如何在linux Fedora 中模拟按Windows
Ninject 通过城堡动态代理拦截具有非空构造函数的代理类

我当前的大部分实现都基于此处提供的信息 Ninject 拦截任何具有特定属性的方法吗 https stackoverflow com questions 6386461 ninject intercept any method with c
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

当我尝试在我的 kali linux 操作系统中使用 python 3 5 运行任何 kivy 程序时然后我收到以下错误程序 from kivy app import App from kivy lang import Builder
为什么 Gradle 或 Maven 没有依赖版本锁定文件？

最近在阅读 NPM Yarn Paket Cargo 等包管理器时我了解到依赖版本锁定文件的概念我的理解是它是一个列出所有直接和传递依赖项及其确切依赖项的文件版本号因此保证后续构建使用一组等效的依赖项这似乎是一个理想的功能因
无需越狱 iPhone 即可访问 /var/mobile/Containers/Data/Application 中的文件

程序在 iPhone 上的目录 var mobile Containers Data Application 中记录一些消息有什么方法可以在不越狱 iPhone 的情况下访问此目录如果没有 iPhone 上是否有任何目录可以让我在不越狱
MySQL 调试工具查询速度慢？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有哪些免费工具可以用来查找MySQL的慢查询除了记录慢速查询之外需要详细分析慢查询谢谢凯瑟尔 U
多处理管理器出现 EOFError

我有很多客户端通过 0MQ 连接到服务器我有一个管理器队列用于工作人员池与每台客户端计算机上的主进程进行通信在一台拥有 250 个工作进程的客户端计算机上我几乎立即看到一堆 EOFError 它们发生在执行 put 时我预计大量的
有没有办法在 Spark 中随机排列集合

我需要用 2 2 10 9 行打乱文本文件有没有办法将它加载到 Spark 中然后并行地洗牌每个分区对我来说在分区范围内洗牌就足够了然后将其溢出回文件要仅在分区内进行洗牌您可以执行以下操作 rdd mapPartitions

有没有办法在 Spark 中随机排列集合

有没有办法在 Spark 中随机排列集合 的相关文章

随机推荐

热门标签

有没有办法在 Spark 中随机排列集合的相关文章