原生spark与pyspark使用比较

2023-05-16

pyspark与原生spark（scala）比较

在学习完spark这个优秀的计算框架后，因为当时的学习使用了python api对spark进行交互，编写spark的原生语言为sacla，所以，在简单的自学完scala后，再次使用scala对spark进行交互，也可称为scala初体验~

本篇文章主要以使用python和scala分别编写spark程序实现wordcount单词计数，来对pyspark和原生spark进行比较

1.spark计算框架介绍

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

spark底层由scala和java编写，现已提供多种api供其它语言操作spark，如python、R语言

2.准备工作

下载scala，并在idea中创建meven工程，导入scala的SDK工具包，并导入相关依赖
在python中下载pyspark第三方包（注：pyspark3.×版本无法支持高版本的python，如python3.8，需降低pyspark版本或者降低python版本）
准备测试数据集

3.创建测试数据集

hadoop word
spark
flink spark
hive

4.scala编写wordcount

依赖包

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>
</dependencies>
##导入的依赖版本需要与自己安装的scala版本对应

import org.apache.spark.{SparkConf, SparkContext}

import java.util.Date

object wordcount {
  def main(args: Array[String]): Unit = {
    //获取程序开始时间
    var start_time =new Date().getTime
    // 程序入口
    val sparkconf = new SparkConf().setMaster("local").setAppName("WordCount")
    // 创建会话
    val sc = new SparkContext(sparkconf)
    //创建rdd
    val rdd1 = sc.textFile("C:/Users/yusyu/Desktop/data.txt")
    //打印 rdd内容
    rdd1.foreach(println)
    // 将rdd里的内容进行根据空格分割，并转换为map类型
    val rdd2 = rdd1.flatMap(x=>x.split(" ")).map(x=>(x,1))

    rdd2.foreach(println)
    //使用reducebykey算子对rdd里的（word，1）类型数据进行求和
    val rdd3 = rdd2.reduceByKey((x,y)=>(x+y))

    rdd3.foreach(println)
    // 关闭会话
    sc.stop()
    // 获取程序结束时间
    var end_time =new Date().getTime
    // 打印程序运行时长
    println((end_time-start_time))
  }
}

运行结果如下：
程序运行时长的单位为毫秒
在这里插入图片描述

5.python编写wordcount

from pyspark import SparkContext, SparkConf
import datetime

start_time = datetime.datetime.now()

conf = SparkConf().setMaster("local").setAppName("test application")

sc = SparkContext(conf=conf)

rdd1 = sc.textFile("C:/Users/yusyu/Desktop/data.txt")

rdd1.foreach(print)

rdd2 = rdd1.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1))

rdd2.foreach(print)

rdd3 = rdd2.reduceByKey(lambda x,y:x+y)

rdd3.foreach(print)

sc.stop()

end_time = datetime.datetime.now()

print(end_time-start_time)

运行结果如下：
在这里插入图片描述

6.总结

这里用了入门案例wordcount来比较了scala与python操作spark的语法和程序运行时长，相同的程序，相比scala编写的运行了五秒多来说，pyspark运行的时长确实会比较长。
这也是在学习完scala后，使用spark的初体验，方便再次重温spark。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

PySpark

使用比较

原生spark与pyspark使用比较的相关文章

实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
Spark 使用自定义架构读取镶木地板

我正在尝试使用自定义架构导入镶木地板格式的数据但它返回类型错误 option 缺少 1 个必需的位置参数值 ProductCustomSchema StructType StructField id sku IntegerType T
使用 selectExpr 选择其中包含特殊字符的 Spark 数据框列

我所处的场景是我的列名称Munic pio字母上有重音 My selectExpr命令因此失败有办法解决吗基本上我有类似以下的表达式 selectExpr CAST Munic pio as string as Munic pio 我真
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
使用列值作为 Spark DataFrame 函数的参数

考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP

随机推荐

计算机三级数据库技术前言

考试内容及要求 1 掌握数据库技术的基本概念原理方法和技术 2 能够使用SQL语言实现数据库操作 3 具备数据库系统安装配置及数据库管理与维护的基本技能 4 掌握数据库管理与维护的基本方法 5 掌握数据库性能优化的基本方法 6 了解数
计算机三级数据库技术（Chapter 2）

第二章 xff1a 需求分析主要内容 xff1a 需求分析的相关概念以及主要方法需求建模方法案例分析 Class 1 需求分析 1 需求分析的概念与意义需求 xff1a 需求是指用户对软件的功能和性能的要求就是用户的要求内容以及对要求
微分几何 Class 1 向量空间

微分几何作为一名大三下的数学专业学生 xff0c 我本学期将实时将我所感兴趣的一门课微分几何笔记以及一些总结同步到我的博客上 xff0c 以便进行学习总结与自我督促参考书微分几何苏步青 xff0c 胡和生 xff08 2016 xf
微分几何 Class 2 欧氏空间

欧氏空间在上完上一节课之后 xff0c 我才意识到 xff0c 欧氏空间和欧氏向量空间原来不是同一个东西但是在介绍欧氏空间之前 xff0c 我们首先来了解一下什么叫做仿射空间 Part One 仿射空间定义 xff1a 仿射空间设
歌评-《Rex Incognito 尘世闲游》-陈致逸

时隔一周时间了 xff0c 终于又找到了时间来更新我的歌评内容虽然身被学校关了起来 xff0c 但是心里还是在歌曲的梦幻世界中畅游hhh 今天我们来听的歌曲也是 The Stellar Moments 闪耀的群星OST专辑中的一首 xff
将Maven的Docker镜像修改为国内源

声明 xff1a 本文CSDN作者原创投稿文章 xff0c 未经许可禁止任何形式的转载 xff0c 原文链接前提在使用Dockerfile构建镜像时 xff0c Maven的Docker镜像内置的是官方源 xff0c 使用起来下载速度太
我看文二代

文二代文二代 xff0c 其实就是人们常说的文坛的后辈子女 xff0c 即父母是搞文学的作家 xff0c 子女也和文学脱不了干系前一段 xff0c 贾平凹的女儿贾浅浅因为其浅浅体诗歌以及部分奇奇怪怪的内容上了热搜被许多网友痛骂对此
码农多打拼5年对生子的影响

码农多打拼五年对生子决策的影响首先我们确定在这个问题中要处理的对象 xff1a 单个个体他会有哪些属性呢 xff1f 1 退休年限 2 生活状态我们要分析的是一个事件对生子数目的影响 xff0c 其实在现当代 xff0c 因为过大的工
微分几何 Class 3 曲线，曲率与挠率

正则曲线什么是曲线在空间中 xff0c 我们会见到各种各样的形状 xff0c 但无论什么形状 xff0c 其根本还是由点和线来构成的 xff0c 这里我们的线是一个直观的理解 xff0c 就是一条直直的 xff0c 有的也是弯的那样的
随机过程番外篇（随机拟合作业解答）

一晚上写了三道随机过程的随机模拟的代码 xff0c 分享出来给大家做个参照 1 如果一个随机变量服从的是期望为 mu xff0c 协方差矩阵为 Sigma
小云的生日史书

小云的生日史 xff1a 生日10月21日前三岁历史暂且不记录 xff0c 史前时期 xff0c 资料不详四岁生日 xff1a 白天去了姥姥姥爷家去玩 xff0c 他们都对我的生日表示了祝福下午便回到了奶奶家里 xff0c 等着生日p
信息论篇-第一次上机作业，你好！

信息论第一次上机作业 1 图像信源熵的求解读入一幅图像实现求解图片信源的熵 span class token triple quoted string string 1 图像信源熵的求解读入一幅图像实现求解图片信源的熵 span s
媒体科创部学习分享非线性规划

非线性规划哇哈哈 xff0c 这次轮到我来讲了 xff0c 虽然很懒 xff0c 但是还是来写博客了这次我们要谈的东西是非线性规划非线性规划非线性规划的定义目标or限制中包含着非线性函数线性规划与非线性规划的区别如果线性规划的
多玩家赌徒输光问题

在随机过程课堂上我们考虑了赌徒输光问题知道了成本和概率变化的情况将对赌徒甲和赌徒乙的赌博结果产生了怎样的影响考虑的问题主要有以下几个方面本金对胜负的影响概率对胜负的影响本金对持续轮数的影响概率对持续轮数的影响对上述问题的综合考
Spring Boot(Maven)+Docker打包

声明 xff1a 本文CSDN作者原创投稿文章 xff0c 未经许可禁止任何形式的转载 xff0c 原文链接本文可以实现 xff1a 将Spring Boot项目从GitHub clone到服务器上后 xff0c 一条命令直接完成依赖下载
解决静态资源文件js/css缓存问题(超详细总结版)

什么是静态资源文件顾名思义 xff0c 静态资源文件就是js css img等非服务器动态运行生成的文件 xff0c 统称为静态资源文件为什么要缓存静态资源文件静态资源文件是基本不会改变的 xff0c 没必要每次都从服务器中获取也
微分几何工具代码

span class token keyword import span math span class token keyword from span sympy span class token keyword import span
【璀璨数海】第一期隐函数定理

隐函数定理鸽了好久了 xff0c 大三生活真的好累啊 xff01 quad quad 前两天夏令营面试的时候被问到了隐函数定理 xff0c 特此专门写一篇博文来重新复习讲解一下隐函数定理的内容定理内容 xff1a 假定
hive安装与配置

hive的安装与配置 hive介绍 xff1a Hive是基于Hadoop的一个数据仓库工具 xff0c 可以将结构化的数据文件映射为一张数据库表 xff0c 并提供类SQL查询功能准备工作 xff1a hadoop集群成功部署卸载自带的
原生spark与pyspark使用比较

pyspark与原生spark xff08 scala xff09 比较在学习完spark这个优秀的计算框架后 xff0c 因为当时的学习使用了python api对spark进行交互 xff0c 编写spark的原生语言为sacla x