Spark 中的 Distinct() 函数如何工作？

2024-05-15

我是 Apache Spark 的新手，正在学习基本功能。有一个小疑问。假设我有一个元组（键，值）的 RDD，并且想从中获取一些唯一的元组。我使用distinct()函数。我想知道该函数基于什么基础认为元组是不同的..？是基于键、值还是两者？

.distinct()肯定是跨分区进行随机播放。要了解更多发生的情况，请运行.toDebugString在你的 RDD 上。

val hashPart = new HashPartitioner(<number of partitions>)

val myRDDPreStep = <load some RDD>

val myRDD = myRDDPreStep.distinct.partitionBy(hashPart).setName("myRDD").persist(StorageLevel.MEMORY_AND_DISK_SER)
myRDD.checkpoint
println(myRDD.toDebugString)

对于我的 RDD 示例（myRDDPreStep 已按键进行哈希分区，由 StorageLevel.MEMORY_AND_DISK_SER 保存并设置检查点），返回：

(2568) myRDD ShuffledRDD[11] at partitionBy at mycode.scala:223 [Disk Memory Serialized 1x Replicated]
+-(2568) MapPartitionsRDD[10] at distinct at mycode.scala:223 [Disk Memory Serialized 1x Replicated]
    |    ShuffledRDD[9] at distinct at mycode.scala:223 [Disk Memory Serialized 1x Replicated]
    +-(2568) MapPartitionsRDD[8] at distinct at mycode.scala:223 [Disk Memory Serialized 1x Replicated]
        |    myRDDPreStep ShuffledRDD[6] at partitionBy at mycode.scala:193 [Disk Memory Serialized 1x Replicated]
        |        CachedPartitions: 2568; MemorySize: 362.4 GB; TachyonSize: 0.0 B; DiskSize: 0.0 B
        |    myRDD[7] at count at mycode.scala:214 [Disk Memory Serialized 1x Replicated]

请注意，可能有更有效的方法来获得涉及更少洗牌的不同，特别是如果您的 RDD 已经以智能方式分区并且分区没有过度倾斜。

See 有没有办法重写Spark RDD unique以使用mapPartitions而不是distinct？ https://stackoverflow.com/questions/31082066/is-there-a-way-to-rewrite-spark-rdd-distinct-to-use-mappartitions-instead-of-di and Apache Spark：使用 RDD.aggregateByKey() 的 RDD.groupByKey() 的等效实现是什么？ https://stackoverflow.com/questions/31081563/apache-spark-what-is-the-equivalent-implementation-of-rdd-groupbykey-using-rd

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Distinct

Spark 中的 Distinct() 函数如何工作？的相关文章

Django 独特的不工作

我在从查询中过滤掉重复项时遇到问题我正在使用 Django 1 4 和 Postgres 8 4 13 我在我的模型对象上使用这个查询它是一个 jquery 自动完成 term request GET get term field re
总和和不同不会改变结果？

我是一个新手试图在这里解决这个问题到目前为止还没有运气非常感谢任何帮助 Select Distinct AB agency no ab branch no AS AGENCY BRANCH count AB agency no ab
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提

随机推荐

[SqlException (0x80131904) 的问题：无效的对象名称“dbo.TableName”。]

我在 google 和 stackoverflow 中查找但没有找到答案如何通过 VS 2010 中的连接字符串连接到我的数据库表
手动更新目标后，单向绑定停止工作

我有这样的WPF绑定代码 TestModel source new TestModel TestModel target new TestModel Bind source target BindingMode OneWay source
正则表达式允许零，只要它不是第一个数字[重复]

这个问题在这里已经有答案了昨天我在这里发布了一个问题正则表达式允许 null 或 1 到 9 数字 https stackoverflow com questions 40354842 regular expression allow n
如何在 SQL Server 中创建文件格式

我正在尝试在 SQL Server 2017 中试验外部文件但在第一步中遇到了困难数据是管道分隔的我试图遵循文档中的语法这需要一个FILE FORMAT 以下是 Microsoft 的语法 CREATE EXTERNAL TABLE
创建包罗万象的路由

我在网上找到了几个在 ASP NET MVC 中创建包罗万象的路由的示例尤其是在 StackOverflow 上但这似乎在 MVC4 中对我不起作用 public static void RegisterRoutes RouteColl
如何使用 CLI 在 Angular 4 中创建新组件

在角度2中我使用 ng g c componentname 但 Angular 4 不支持它所以我手动创建了它但它显示错误它不是一个模块在 Angular4 中这也是一样的如果您遇到错误我认为您的问题出在其他地方在命令提示符下
如何检查某个元素是否存在于一组项目中？

In an ifJava中的语句如何检查一个对象是否存在于一组项目中例如在这种情况下我需要验证水果是苹果橙子还是香蕉 if fruitname in APPLE ORANGES GRAPES Do something 这是一件非常微
如何将设备屏幕位置转换为发送事件位置？

我知道关于input tap x yshell 命令但是我想了解如何使用执行单击sendevent命令我能够通过以下命令实现它 sendevent dev input event5 3 53 X sendevent dev inpu
postgresql 中的锁定表

我有一个名为 games 其中包含一个名为 title 该列是唯一的数据库中使用PostgreSQL 我有一个用户输入表单允许他插入新的 game in games 桌子插入新游戏的功能会检查之前输入的游戏是否存在 game 与相同的
仅为登录用户显示菜单项

我是 ASP NET MVC 新手正在使用该框架的 1 0 版本我有一个 site master 页面其中包含以下硬编码菜单 div ul li li li li li li li li ul div
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
URL.createObjectURL 在react-native中不起作用，是否有其他方法来创建url？

我正在尝试在react native应用程序中显示pdf文件这是我的代码从 api 获取 blob Blob data Object blobId 85225e45 7f45 463b bd62 a9170551a3b7 lastMod
如何在Web Activity中使用数据集和linkedServices？

有人能给我一个关于使用这两个属性的完整示例吗而且里面有一些奇怪的东西官方示例 https learn microsoft com en us azure data factory control flow web activity bod
如何将 UIImageView 裁剪为自定义形状

用户是否可以在该位周围画一条虚线圆圈 UIImageView他们希望裁剪到然后为UIImageView调整大小到这些点这有点像 Photoshop 中的套索选取框效果更新从 iOS 8 x 开始 UIImageView 提供了m
从 SQLite 命令行 shell 中打开数据库文件

我正在使用SQLite 命令行外壳 http www sqlite org sqlite html 如文档所述我可以通过将数据库作为可执行文件的参数提供来打开数据库 sqlite3 data db 我不知道如何打开数据库文件在工具内在调用
Grails + Spring Security：无法登录

我刚刚开始学习Grails和Spring 我已经按照官方教程创建了一个登录系统但我无法登录用户名或密码不匹配我知道 90 的情况下这是由于双重编码或多个数据源这也导致双重编码造成的但我也没有这样做 class BootStrap
使 'n' 始终向前搜索，无论是否 / 或 ?用于搜索

我几乎总是在 Vim 中搜索然后继续向前搜索n并向后N 然而有时我会使用跳转到我当前所在行上方几行的项目在这种情况下如果我想向前搜索同一项目我必须使用N代替n 令人烦恼的心理减速带所以我的问题是是否有可能使n永远向前走并且
python 3 argparse 调用函数

我想在 python3 中创建一个类似命令行类似 shell 的界面 Argparse 似乎负责解析和显示帮助错误消息根据argparse 的 python3 文档 https docs python org 3 5 library
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di

Spark 中的 Distinct() 函数如何工作？

Spark 中的 Distinct() 函数如何工作？ 的相关文章

随机推荐

热门标签

Spark 中的 Distinct() 函数如何工作？的相关文章