Apache Spark 中的 shuffle read 和 shuffle write 是什么

2024-01-12

在下面的 Spark admin 在端口 8080 上运行的屏幕截图中：

对于此代码，“随机读取”和“随机写入”参数始终为空：

import org.apache.spark.SparkContext;

object first {
  println("Welcome to the Scala worksheet")

  val conf = new org.apache.spark.SparkConf()
    .setMaster("local")
    .setAppName("distances")
    .setSparkHome("C:\\spark-1.1.0-bin-hadoop2.4\\spark-1.1.0-bin-hadoop2.4")
    .set("spark.executor.memory", "2g")
  val sc = new SparkContext(conf)

  def euclDistance(userA: User, userB: User) = {

    val subElements = (userA.features zip userB.features) map {
      m => (m._1 - m._2) * (m._1 - m._2)
    }
    val summed = subElements.sum
    val sqRoot = Math.sqrt(summed)

    println("value is" + sqRoot)
    ((userA.name, userB.name), sqRoot)
  }

  case class User(name: String, features: Vector[Double])

  def createUser(data: String) = {

    val id = data.split(",")(0)
    val splitLine = data.split(",")

    val distanceVector = (splitLine.toList match {
      case h :: t => t
    }).map(m => m.toDouble).toVector

    User(id, distanceVector)

  }

  val dataFile = sc.textFile("c:\\data\\example.txt")
  val users = dataFile.map(m => createUser(m))
  val cart = users.cartesian(users) //
  val distances = cart.map(m => euclDistance(m._1, m._2))
  //> distances  : org.apache.spark.rdd.RDD[((String, String), Double)] = MappedR
  //| DD[4] at map at first.scala:46
  val d = distances.collect //

  d.foreach(println) //> ((a,a),0.0)
  //| ((a,b),0.0)
  //| ((a,c),1.0)
  //| ((a,),0.0)
  //| ((b,a),0.0)
  //| ((b,b),0.0)
  //| ((b,c),1.0)
  //| ((b,),0.0)
  //| ((c,a),1.0)
  //| ((c,b),1.0)
  //| ((c,c),0.0)
  //| ((c,),0.0)
  //| ((,a),0.0)
  //| ((,b),0.0)
  //| ((,c),0.0)
  //| ((,),0.0)

}

为什么“随机读取”和“随机写入”字段为空？是否可以调整上面的代码以填充这些字段，以便了解如何

Shuffle是指在多个Spark stage之间重新分配数据。 “Shuffle Write”是在传输之前（通常在阶段结束时）所有执行器上所有写入的序列化数据的总和，“Shuffle Read”是指在阶段开始时所有执行器上读取的序列化数据的总和。

您的程序只有一个阶段，由“收集”操作触发。不需要进行洗牌，因为您只有一堆连续的映射操作，这些操作在一个阶段中进行管道传输。

尝试看看这些幻灯片：http://de.slideshare.net/colorant/spark-shuffle-introduction http://de.slideshare.net/colorant/spark-shuffle-introduction

阅读原始论文的第 5 章也可能有所帮助：http://people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf http://people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Apache Spark 中的 shuffle read 和 shuffle write 是什么的相关文章

Play2 的异常无法在 postgresql 上运行

我发现play2的anorm的行解析器依赖于jdbc驱动程序返回的元数据所以在play提供的内置示例 zentasks 中我可以找到这样的代码 object Project val simple get Pk Long project
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
为什么构造函数参数要成为案例类的成员？

class MyClass name String val x new MyClass x println x name Error name is not a member of MyClass but abstract class Ba
为什么 VectorBuilder 位于 scala.collections.immutable 包中？

VectorBuilder在同一源文件中定义为Vector Vector是不可变的并且在scala collections immutable包因此构建器位于同一个包中据我所知 CanBuildFrom uses a VectorBui
重写继承的构造函数字段时的差异？

考虑这个简单的 Scala 类 class A val d Int Scala 之间是否存在差异无论是行为还是生成的字节码 class B d Int extends A d and class B override val d Int
scala 使用 GMPUtil 处理 pidigits

Rex Kerr 发布了有关在 scala 中使用 GMP 的信息特别是运行 pidigits 程序 libjpargmp so 使用 GmpUtil c 生成我的问题是在哪里可以找到 GMPUtil c 我的谷歌搜索没有发现任何东西
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
Scala 和 Spark：Windows 上的 Dataframe.write._

有人设法使用 Spark 写入文件尤其是 CSV 吗数据框 http spark apache org docs latest api scala index html org apache spark sql Dataset在 Win
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
PlayFramework：如何转换 JSON 数组的每个元素

鉴于以下 JSON values one two three 我如何在 Scala Play 中像这样转换它 values elem one elem two elem three 这很容易Play 的 JSON 转换器 https www
Scala 方法和高级类型参数

我试图在 scala 中定义一个方法它采用通用类型S lt Seq Double 并返回一个 S FixedLoad FixedLoad 是一个具体类型但我的实现给了我错误我不明白为什么尽管我多次尝试去理解参数类型和高级类型但我的
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
压缩 HList 的函数的推断类型

谢谢https github com milessabin shapeless wiki Feature overview shapeless 2 0 0 https github com milessabin shapeless wiki
在 case 语句中间使用 unapply 的对象

scala gt object Test def unapply L R v L R Some v defined object Test scala gt 1 2 match case 1 Test 2 gt println First
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
Scala：尝试 .getOrElse 与 if/else

我是一名相当新的 Scala 开发人员我是一名经验丰富的 Java 开发人员到目前为止我一直很喜欢 Scala 的简单性我真的很喜欢函数式结构而且它们常常迫使你编写更简洁的代码然而最近我注意到由于舒适性和简单性我最终使用了在

随机推荐

子类化 UICollectionViewLayout 并分配给 UICollectionView

我有一个 UICollectionViewController void viewDidLoad super viewDidLoad assign layout subclassed below self collectionView co
DebugDiag：如何手动注入 LeakTrack.dll

我有一个来自生产的故障转储来识别内存泄漏当我使用 DebugDiag v2 update 2 时我收到一份报告 DebugDiag 没有检测到 w3wp DMP 中加载的 LeakTrack dll 因此没有泄漏对此文件进行了分析如
错误：返回 void，return 关键字后面不能跟对象表达式

private void QuestionAnswer Load object sender EventArgs e txtQuestion Enabled false txtQuestion BackColor Color White g
C 预处理器宏扩展

我很难理解 C 预处理器在以下上下文中如何应用重写规则我有以下宏 define A x A x define B x B x define X x x 这个想法是每个宏都使用串联来创建一个新的表达式它本身可以是一个宏如果它是一个宏
Python3 硒问题

我想通过以下方式抓取一些评论Web page https hotels ctrip com hotel 347422 html isFull F ctm ref hod sr lst dl n 1 8 当我尝试通过 Selenium 选择转
如何单独使用 CSS 为 IE 和 Firefox 获得奇数/偶数着色？

我的 Web 项目使用 php 但我需要单独使用 CSS 进行着色因此我需要在 Firefox 和 Internet Explorer 中运行的代码此代码已编写但在 Internet Explorer 中不起作用 tbl css co
C 中指针的 const 用法

我正在复习 C 有一个关于const与指针一起使用我理解下面的代码 const char someArray 这是定义一个指向 char 类型和const修饰符意味着存储在someArray无法更改然而下面这句话是什么意思呢 char
重复声明 TypeScript Getter Setter

我正在尝试为 TypeScript 中的字段创建 getter 和 setter searchFilter string get searchFilter string return this searchFilter set search
在 Windows 10 上安装 SQL Server 2017 开发人员版时出现“哎呀”错误

我正在尝试使用基本安装类型安装 SQL Server 2017 Developer 版本但它给出以下错误消息 Oops 无法安装 SQL Server setup exe 它尝试安装的构建版本是14 1710 3866 2 我已经尝试
告诉 gradle 绕过依赖检查

我在客户站点位于防火墙后面我正在尝试编译但 gradle 一直在尝试检查我的依赖项公司防火墙明确阻止 Maven 下载因此我的构建失败现在我之前已经编译过所以依赖项确实已经存在于我的 user gradle 文件夹中但已经超
silverlight 和 DataContractSurrogates 中都存在该类型

我正在使用 silverlight 4 和 ria 服务我收到一个错误说类型 eLab Web SessionsHWFile 同时存在于 eLab Web dll 和 DataContractSurrogates c96b3601 cd
Excel-VBA 从文本文件导入模块（无需信任中心）

我正在尝试创建一个自定义的子程序和函数库在网络位置中另存为 txt 文件我正在创建的工作簿的各个用户可以根据他们选择的用户表单函数导入它们工作簿的用户只能通过用户表单使用工作簿我不想要求他们修改其安全信任中心设置以使此导入库代码正常
servlet 的通配符路径？

拥有一个 WebServlet urlPatterns myServlet 如果用户去myapp myServlet other 我仍然希望我的 servlet 能够捕获也就是说在 servlet 路径之后使用通配符我怎么能这样做呢
如何在 .NET 3.5 Web 应用程序中安装和使用 ASP.NET AJAX Control Toolkit？

我如何让它与我的项目一起工作 http ajax asp net http ajax asp net http www codeplex com AjaxControlToolkit http www codeplex com AjaxCo
尝试更改 github 页面的源时无法选择 master 分支/docs 文件夹

感谢您花时间帮助我我正在尝试发布我的 HTML 网站但它不允许我使用 master 分支文档文件夹现在我在链接中使用我的用户名如下所示 https djcinoj github io token sale 我知道它说如果您想使用
Ipad 上的下拉菜单 css / js

我正在开发一个带有简单且纯 CSS 下拉菜单的网站该网站应该在台式机和 iPad 上使用我的下拉菜单使用 hover触摸屏上出现伪类和问题菜单展开良好但永远不会折叠关闭它的唯一方法是从同一下拉菜单中打开另一个子菜单我的目标是当我
将 BindingAdapter 与资源中的字符串数组结合使用

我有一个almost简单的想法我想使用数据绑定 API 和 BindingAdapter 为微调器生成一个适配器这是我想要使用的 XML
如何使用 CryptoJS AES 解密消息。我有一个可以运行的 Ruby 示例

我可以使用 Ruby 解密 AES 加密消息如下所示 require openssl require base64 data IYkyGxYaNgHpnZWgwILMalVFmLWFgTCHCZL9263NOcfSo5lBjAzOZAtF
Zend：如何在控制器中的视图助手中使用自定义函数？

我有一个视图助手library my view helper gravatar所以在任何视图中我都可以调用 this gt gravatar email 但是我如何在模型或控制器中访问此功能抱歉如果已经被问过但我是新人而且文档的
Apache Spark 中的 shuffle read 和 shuffle write 是什么

在下面的 Spark admin 在端口 8080 上运行的屏幕截图中对于此代码随机读取和随机写入参数始终为空 import org apache spark SparkContext object first println W

Apache Spark 中的 shuffle read 和 shuffle write 是什么

Apache Spark 中的 shuffle read 和 shuffle write 是什么 的相关文章

随机推荐

热门标签

Apache Spark 中的 shuffle read 和 shuffle write 是什么的相关文章