PySpark中的RDD创建

2023-05-16

PySpark中的RDD创建

【课程性质:PySpark数据处理】

文章目录

    • 1. 实验目标
    • 2. 本次实验主要使用的 P y t h o n Python Python
    • 3. 适用的对象
    • 4. 研究流程图
    • 5. 实验步骤
      • 步骤1 安装并引入必要的库
      • 步骤2 从文件创建RDD
      • 步骤3 使用 `parallelize` 创建RDD

1. 实验目标

  • 学习使用PySpark创建RDD
  • 了解PySpark中的数据存储读取模式

2. 本次实验主要使用的 P y t h o n Python Python

名称版本简介
r e q u e s t s requests requests 2.20.0 2.20.0 2.20.0线性代数
P a n d a s Pandas Pandas 0.25.0 0.25.0 0.25.0数据分析
P y S p a r k PySpark PySpark 2.4.3 2.4.3 2.4.3大数据处理
M a t p l o t l i b Matplotlib Matplotlib 3.0.1 3.0.1 3.0.1数据可视化

3. 适用的对象

  • 本课程假设您已经学习了 P y t h o n Python Python 基础,具备数据可视化基础
  • 学习对象:本科学生、研究生、人工智能、算法相关研究者、开发者
  • 大数据分析与人工智能

4. 研究流程图

image-20210610145017053

5. 实验步骤

步骤1 安装并引入必要的库

# 安装第三方库
!pip install pyspark==2.4.5
# 获取数据集
import zipfile
with zipfile.ZipFile('/resources/jupyter/pyspark/pyspark_dataset_kdd.zip') as z:
    z.extractall()

在本实验中,我们将介绍两种不同的方法来将数据导入基本的Spark数据结构,即Resilient Distributed DatasetRDD**。RDD是元素的分布式集合。Spark中的所有工作都表示为创建新的RDDs,转换现有的RDDs或调用RDDs上的操作来计算结果。Spark自动将RDDs中包含的数据分布到集群中,并并行化对其执行的操作。

获取数据文件

1999年KDD杯比赛数据集的详细描述KDDCUP1999。

在本实验中,我们将使用为1999年KDD杯提供的缩减数据集(10%),其中包含近50万个网络交互。该文件作为Gzip文件提供,我们将在下载到本地。

步骤2 从文件创建RDD

创建RDD最常见的方法是从文件中加载它。注意,Spark的“textFile”可以直接处理压缩文件。

data_file = "./kddcup.data_10_percent.gz"
raw_data = sc.textFile(data_file)

现在我们将数据文件加载到 raw_data RDD中。

在不涉及 Spark transformationactions 的情况下,我们可以做的最基本的检查RDD内容是否正确的事情是count()从文件加载到RDD中的数据行数。

raw_data.count()
image-20210610145234613

我们还可以检查数据中的前几个条目。

raw_data.take(5)
image-20210610145323289

在接下来的实验中,我们将使用这些原始数据来了解不同的Spark转换和操作。****

步骤3 使用 parallelize 创建RDD

创建RDD的另一种方法是并行化已经存在的列表。

a = range(100)
data = sc.parallelize(a)

和前面一样,我们可以count()RDD中的元素数量。

data.count()

image-20210610145510708

和上面一样,我们可以访问RDD上的前几个元素。

data.take(5)

image-20210610145537127

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark中的RDD创建 的相关文章

随机推荐

  • java 方法名类名命名规范

    一 命名规范 1 项目名全部小写 2 包名全部小写 3 类名首字母大写 xff0c 如果类名由多个单词组成 xff0c 每个单词的首字母都要大写 大驼峰 xff0c 如 xff1a public class MyFirstClass 4 变
  • Qt arm环境安装

    一 相关工作准备 Qt opensource 和 Qt everywhere 下载 链接 版本为5 9 8 arm linux gcc下载 链接 版本为4 8 3 tslib 下载 链接 版本为1 21 ps 可以不安装Qt opensou
  • STM32驱动ST7789V2 tft屏幕

    一 简介 本次教程使用的是1 54寸240 240像素的tft屏幕 xff0c 其接口协议为SPI协议 在使用的过程中仅需要四根数据即可驱动点亮屏幕 然后硬件使用的是STM32F103C8T6核心板 xff0c 用的是SPI2 一般购买屏幕
  • linux设置复杂度策略、登录超时处理功能

    1 在字符终端下 xff0c 实现某一用户连续错误登陆N次后 xff0c 就锁定该用户X分钟 pam tally2 执行 vi etc pam d login 在 PAM 1 0 下新起一行 xff0c 加入 auth required p
  • 飞控陀螺仪,磁力计,加速计,四元数姿态结算

    MPU6050主要包含陀螺仪和加速度计 陀螺仪主要测量角速度 xff0c 即可以测出某一时间段物体转过的角度 加速度计测量的是物体的加速度 xff0c 重力加速度即物体受重力作用的情况下具有的加速度 xff0c 物体静止时 xff0c 加速
  • 智慧物业管理系统(Springboot)

    开发工具 xff1a IDEA xff0c jdk1 8 数据库 xff1a mysql5 7 前台框架 xff1a layui 后端技术 xff1a springboot 项目描述 xff1a 1 前台住户登录 2 智慧物业管理后台 2
  • 北京大学2020公开课 AVL-Python实现代码

    class TreeNode def init self key val left 61 None right 61 None parent 61 None self key 61 key self payload 61 val self
  • Docker-2020详细教程<配合千锋Java学习营>

    Docker 2020详细教程 lt 配合千锋Java学习营 gt 2020 Docker最新超详细版教程通俗易懂 一 Docker介绍 1 下载Dcoker依的赖环境 想安装Docker xff0c 需要先将依赖的环境全部下载下来 xff
  • 使用阿里云部署Flask网页

    使用阿里云部署Flask网页 前端网页部署 阿里云apache CentOS 配置好Apache后 xff0c 将一整个html css js文件全部copy进 var www html目录下 之后就可以通过访问IP地址访问到你的index
  • MapReduce的个人理解

    MapReduce的个人理解 文章目录 MapReduce模型简介Map和Reduce函数这里给出一个简单实例 MapReduce的工作流程工作流程概述MapReduce的各个执行阶段 Shuffle过程详解Shuffle过程简介Map端的
  • Hadoop配置

    Hadoop配置 文章目录 Linux shell配置环境变量使环境变量生效Hadoop 集群安装配置到两台阿里云linux主机上Hadoop集群模式安装实验环境实验内容1 安装jdk2 下面来修改环境变量3 安装hadoop4 下面来修改
  • HDFS 的使用和管理

    HDFS 的使用和管理 文章目录 HDFS 的使用和管理实验环境实验内容实验步骤1 启动hadoop的hdfs相关进程2 用jps查看HDFS是否启动3 验证HDFS运行状态4 ls 命令5 put 命令6 moveFromLocal 命令
  • HDFS API操作

    HDFS API操作 实验环境 Linux Ubuntu 16 04 前提条件 xff1a 1 xff09 Java 运行环境部署完成 2 xff09 Hadoop 的单点部署完成 上述前提条件 xff0c 我们已经为你准备就绪了 实验内容
  • HBase的安装部署和使用

    HBase的安装部署和使用 文章目录 HBase的安装部署和使用实验环境实验内容实验步骤1 点击 34 命令行终端 34 xff0c 打开新的命令行窗口2 解压安装包3 更改文件夹名和所属用户4 设置HBASE HOME环境变量5 修改hb
  • 熟悉常用的HBase操作

    熟悉常用的HBase操作 文章目录 实验环境实验内容1 编程实现以下指定功能 xff0c 并用Hadoop提供的HBase Shell命令完成相同的任务 xff08 1 xff09 列出HBase所有的表的相关信息 xff0c 如表名 创建
  • Hive的安装部署和管理

    Hive的安装部署和管理 文章目录 实验环境实验内容实验步骤1 点击 34 命令行终端 34 xff0c 打开新窗口2 解压安装包3 更改文件夹名和所属用户4 设置HIVE HOME环境变量5 导入MySql jdbc jar包到hive
  • Hive数仓:使用桶表

    Hive数仓 xff1a 使用桶表 文章目录 Hive数仓 xff1a 使用桶表实验环境实验步骤1 点击 34 命令行终端 34 xff0c 打开新窗口2 启动MySQL3 指定元数据数据库类型并初始化Schema4 启动Hadoop5 启
  • python 获取当前文件路径

    一 Python 获取当前文件路径方法 sys path 0 获取文件当前工作目录路径 绝对路径 sys argv 0 获得模块所在的路径 由系统决定是否是全名 若显示调用python指令 xff0c 如python demo py xff
  • PySpark中的RDD基本操作

    PySpark中的RDD基本操作 课程性质 xff1a PySpark数据处理 文章目录 1 实验目标2 本次实验主要使用的 P y t h
  • PySpark中的RDD创建

    PySpark中的RDD创建 课程性质 xff1a PySpark数据处理 文章目录 1 实验目标2 本次实验主要使用的 P y t h