Spark 按列字数统计

2024-01-30

我们正在尝试在 Spark 中生成数据集的按列统计数据。除了使用统计库中的汇总功能之外。我们正在使用以下程序：

我们确定具有字符串值的列
生成整个数据集的键值对，使用列号作为键，列的值作为值
生成新的格式映射

(K,V) ->((K,V),1)

然后我们使用reduceByKey来查找所有列中所有唯一值的总和。我们缓存此输出以减少进一步的计算时间。

在下一步中，我们使用 for 循环循环遍历列以查找所有列的统计信息。

我们正在尝试再次利用map reduce方式来减少for循环，但我们无法找到某种方法来实现它。这样做将使我们能够在一次执行中生成所有列的列统计信息。 for 循环方法是按顺序运行的，因此速度非常慢。

Code:

//drops the header

    def dropHeader(data: RDD[String]): RDD[String] = {
         data.mapPartitionsWithIndex((idx, lines) => {
           if (idx == 0) {
             lines.drop(1)
           }
           lines
         })
       }

    def retAtrTuple(x: String) = {
       val newX = x.split(",")
       for (h <- 0 until newX.length) 
          yield (h,newX(h))
    }



    val line = sc.textFile("hdfs://.../myfile.csv")

    val withoutHeader: RDD[String] = dropHeader(line)

    val kvPairs = withoutHeader.flatMap(retAtrTuple) //generates a key-value pair where key is the column number and value is column's value


    var bool_numeric_col = kvPairs.map{case (x,y) => (x,isNumeric(y))}.reduceByKey(_&&_).sortByKey()    //this contains column indexes as key and boolean as value (true for numeric and false for string type)

    var str_cols = bool_numeric_col.filter{case (x,y) => y == false}.map{case (x,y) => x}
    var num_cols = bool_numeric_col.filter{case (x,y) => y == true}.map{case (x,y) => x}

    var str_col = str_cols.toArray   //array consisting the string col
    var num_col = num_cols.toArray   //array consisting numeric col


    val colCount = kvPairs.map((_,1)).reduceByKey(_+_)
    val e1 = colCount.map{case ((x,y),z) => (x,(y,z))}
    var numPairs = e1.filter{case (x,(y,z)) => str_col.contains(x) }

    //running for loops which needs to be parallelized/optimized as it sequentially operates on each column. Idea is to find the top10, bottom10 and number of distinct elements column wise
    for(i <- str_col){
       var total = numPairs.filter{case (x,(y,z)) => x==i}.sortBy(_._2._2)
       var leastOnes = total.take(10)
       println("leastOnes for Col" + i)
       leastOnes.foreach(println)
       var maxOnes = total.sortBy(-_._2._2).take(10)
       println("maxOnes for Col" + i)
       maxOnes.foreach(println)
       println("distinct for Col" + i + " is " + total.count)
    }

让我稍微简化一下你的问题。（实际上很多。）我们有一个RDD[(Int, String)]我们想要找到最常见的前 10 个Strings 为每个Int（均在 0–100 范围内）。

与您的示例中所示的排序不同，使用 Spark 内置的效率更高RDD.top(n)方法。它的运行时间与数据大小成线性关系，并且需要移动的数据比排序少得多。

考虑实施top in RDD.scala https://github.com/apache/spark/blob/v1.2.0/core/src/main/scala/org/apache/spark/rdd/RDD.scala#L1113。您想要执行相同的操作，但每个优先级队列（堆）Int钥匙。代码变得相当复杂：

import org.apache.spark.util.BoundedPriorityQueue // Pretend it's not private.

def top(n: Int, rdd: RDD[(Int, String)]): Map[Int, Iterable[String]] = {
  // A heap that only keeps the top N values, so it has bounded size.
  type Heap = BoundedPriorityQueue[(Long, String)]
  // Get the word counts.
  val counts: RDD[[(Int, String), Long)] =
    rdd.map(_ -> 1L).reduceByKey(_ + _)
  // In each partition create a column -> heap map.
  val perPartition: RDD[Map[Int, Heap]] =
    counts.mapPartitions { items =>
      val heaps =
        collection.mutable.Map[Int, Heap].withDefault(i => new Heap(n))
      for (((k, v), count) <- items) {
        heaps(k) += count -> v
      }
      Iterator.single(heaps)
    }
  // Merge the per-partition heap maps into one.
  val merged: Map[Int, Heap] =
    perPartition.reduce { (heaps1, heaps2) =>
      val heaps =
        collection.mutable.Map[Int, Heap].withDefault(i => new Heap(n))
      for ((k, heap) <- heaps1.toSeq ++ heaps2.toSeq) {
        for (cv <- heap) {
          heaps(k) += cv
        }
      }
      heaps
    }
  // Discard counts, return just the top strings.
  merged.mapValues(_.map { case(count, value) => value })
}

这很有效，但也很痛苦，因为我们需要同时处理多个列。拥有一个会更容易RDD每列只需调用rdd.top(10)在各个。

不幸的是，将 RDD 分割成 N 个更小的 RDD 的简单方法需要执行 N 遍：

def split(together: RDD[(Int, String)], columns: Int): Seq[RDD[String]] = {
  together.cache // We will make N passes over this RDD.
  (0 until columns).map {
    i => together.filter { case (key, value) => key == i }.values
  }
}

更有效的解决方案可能是按键将数据写出到单独的文件中，然后将其加载回单独的 RDD 中。这在中讨论按 Spark 键写入多个输出 - 一个 Spark 作业 https://stackoverflow.com/questions/23995040/write-to-multiple-outputs-by-key-spark-one-spark-job.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 按列字数统计的相关文章

Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
在这种情况下，scala 的类型检查是如何工作的？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Start writing your ScalaFiddle code here sealed trait DSL A def run
具有通用返回类型的可选函数参数

您将如何实现通过正则表达式解析某些输入并将创建的字符串转换为其他类型的类我的做法是 class ARegex T regex Regex reform Option String gt T def findFirst input Stri
我可以使用特征中的方法重写 scala 类方法吗？

class PasswordCaseClass val password String trait PasswordTrait self PasswordCaseClass gt override def password blue val
使用 Scala 宏或反射实例化类

在我的 scala 代码中我希望能够实例化一个新类例如假设我有以下代码 class Foo def foo 10 trait Bar val bar 20 理想情况下我希望能够做类似的事情 def newInstance A lt
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
将多个 Future[Seq] 连接成一个 Future[Seq]

如果没有 Future 这就是我将所有较小的 Seq 组合成一个大 Seq 的方式flatmap category getCategoryUrlKey id Int Seq Meta main method val appDomains S
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
使用 Apache Commons lineIterator 时出现 OutOfMemory 错误

我正在尝试使用 Apache Commons 逐行迭代 1 2GB 文件FileUtils lineIterator 然而一旦LineIterator calls hasNext 我得到一个java lang OutOfMemoryErr
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
为什么 sbt 在 build.sbt 工作时使用 Build.scala 报告“未找到：值 PlayScala”？

我正在创建一个多模块 sbt 项目其结构如下
如何插入UUID的值？

我在 Play Framework 2 3 支持的 postgresql 9 4 中使用 anorm 2 4 给出一个这样的模型 case class EmailQueue id UUID send from String send to
在 Scala 中设计方便的默认值映射

我发现自己使用了很多嵌套映射例如 Map Int Map String Set String 并且我希望在访问新密钥时自动创建新的 Map Set 等例如像下面这样 val m m 1992 foo bar 请注意如果不需要我不想
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Scala UpperBound 和 LowerBound 概念

下面是我尝试运行的代码 class Student def printDetails println I am a student def printSomeOtherDetails println I love Studying clas
Scala：var List 与 val MutableList

在 Odersky 等人的 Scala 书中他们说使用列表我还没有从头到尾读过这本书但所有的例子似乎都使用了 val List 据我了解还鼓励人们使用 vals 而不是 vars 但在大多数应用程序中使用 var List 或 v

随机推荐

Docker 命令不再响应

大多数 docker 命令永远不会结束我必须用 CTRL C 手动中断它们即使是简单的命令例如docker ps or docker info不回应然而 docker help and docker version还在工作我认为特
标准输入到 powershell 脚本

我正在运行一个服务它可以调用外部进程来修改文本流然后再将其返回到服务文本流从服务传递到 stdout 上的外部进程并从 stdin 上的服务读取修改后的结果换句话说外部过程命令可以用作文本过滤器我想使用 powershe
AdapterView 不支持 addView(View)

我开始进行 Android 开发并且在标题上遇到了该错误这是我的 Contacts java package us inevent toot import android os Bundle import android support
AWS 无法删除网络接口

在AWS中我有网络接口但我无法删除它们因为它们应该正在使用中我尝试过通过强制选项将它们分开但这不起作用我如何识别网络接口使用的对象查找网络接口所连接的资源的最佳方法是检查 ENI 的描述字段根据资源类型此描述字段可能会
避免空指针

我正在用 C 11 实现我自己的编程语言我设计的数据类型之一是Token班级它旨在存储从源文件读取的标记以及标记的内容类型以及遇到的行令牌可以是单字符符号长字符串数字或名称因此它需要能够存储不同的数据类型可以是用于符号的字
Apache 重写规则类似于 Nginx try_files

在 Nginx 中我使用了 try files 它基本上接受对域上文件的任何请求并将其通过名为 file parse php 的自定义 php 脚本传递在 Nginx 中它看起来像这样 try files url file pars
对于具有 Float 原始值的 Swift 枚举，“枚举案例的原始值不是唯一的”

根据Swift 编程语言 https developer apple com library mac documentation Swift Conceptual Swift Programming Language Enumeration
return new RedirectResult() 与 return Redirect()

以下两个控制器 ActionResult 返回语句有什么区别 return new RedirectResult http www google com false and return Redirect http www google c
如何检查“sudo 0.4.1 jurko 5”及更新版本中正在生成/接收哪些 SUD？

这个问题与这个问题类似如何输出正在生成接收的肥皂水 https stackoverflow com questions 4426204 how can i output what suds is generating receiving
RecyclerView LinearLayout 管理器在横向模式下始终返回 -1 - findLastCompletelyVisibleItemPosition()

我在用着findLastCompletelyVisibleItemPosition 确定 RecyclerView 中的最后一个可见项目这是我如何设置布局的代码片段 mRecyclerView setHasFixedSize true L
如何从结构中提取索引最高的专业化？

我正在尝试进行一些模板元编程并且发现需要提取某种类型的某种结构的专门化的最高索引例如如果我有一些类型 struct A template
区分 Jersey、Jackson 和 JaxB API

嗨我一直在内部使用 Jackson 进行 JSON 处理我想将这些对象作为 Json 提供给外部 API REST 现在它们在内部存储为 java 对象明显的实现是编写某种查询引擎来读取请求从底层数据存储中检索对象然后使用 Ja
从 Mercurial 中的单个本地存储库推送到多个远程存储库

我正在考虑使用 AppHarbor 托管一个轻量级网站并正在研究他们的 Mercurial 集成目前我使用 Kiln 作为远程存储库但目前 AppHarbor 仅支持 BitBucket 集成一个本地存储库可以有 2 个远程存储库吗
ES6 类变量替代方案

目前在 ES5 中我们许多人在框架中使用以下模式来创建类和类变量这很舒服 ES 5 FrameWork Class variable string variable2 true init function addItem functi
如何删除 Firefox 按钮和链接上的虚线轮廓？

我可以让 Firefox 不显示丑陋的虚线焦点轮廓links有了这个 a focus outline none 但我怎样才能做到这一点
为什么设置 USER 环境变量需要 12 秒？

使用以下代码我经历了可怕的运行时 Option Explicit Dim ShellEnvironment Set ShellEnvironment CreateObject WScript Shell Environment USER
UIPopoverController：为什么我的弹出窗口没有出现在我想要的地方？

简单的一个视图我使用presentPopoverFromRect在CGRect中呈现一个UIPopoverController 并且箭头或弹出框都没有出现在我传入的矩形中要求的坐标附近有什么线索吗我一直试图自己解决这个问题但我放弃
从 Java 中的其他类访问私有变量

如果我想创建一个将人员添加到列表中的表单我如何从另一个类访问该列表我应该在哪里定义该列表以便其他类可以访问成员大小等例如如果我有 Foo 类它具有适用于我的表单的 GUI 以及用于向列表中添加和删除人员的按钮那么将列表声明为
crosstable() 导出到 csv

你好所以我需要制作一个交叉表我发现有多种方法但有一个函数可以使表格就像 Excel 中的数据透视表一样它工作完美但我无法将其导出到 csv 或 excel 因为它是 Crosstable 类因此不能强制它我如何设法将其导出为
Spark 按列字数统计

我们正在尝试在 Spark 中生成数据集的按列统计数据除了使用统计库中的汇总功能之外我们正在使用以下程序我们确定具有字符串值的列生成整个数据集的键值对使用列号作为键列的值作为值生成新的格式映射 K V gt K V 1 然后我

Spark 按列字数统计

Spark 按列字数统计 的相关文章

随机推荐

热门标签

Spark 按列字数统计的相关文章