Spark SQL 基本操作

2023-10-26

将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。

{ "id":1 , "name":" Ella" , "age":36 }

{ "id":2, "name":"Bob","age":29 }

{ "id":3 , "name":"Jack","age":29 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":5 , "name":"Damon" }

为employee.json创建DataFrame，并写出Python语句完成下列操作：

查询所有数据；
查询所有数据，并去除重复的数据；
查询所有数据，打印时去除id字段；
筛选出age>30的记录；
将数据按age分组；
将数据按name升序排列；
取出前3行数据；
查询所有记录的name列，并为其取别名为username；
查询年龄age的平均值；
查询年龄age的最小值。

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("Employee").getOrCreate()

# 读取JSON文件并创建DataFrame
df = spark.read.json("file:///opt/module/spark-3.0.3-bin-without-hadoop/mycode/employee.json")

# (1) 查询所有数据
df.show()

# (2) 查询所有数据，并去除重复的数据
df_drop_duplicates = df.dropDuplicates()
df_drop_duplicates.show()

# (3) 查询所有数据，打印时去除id字段
df_no_id = df.select([c for c in df.columns if c != "id"])
df_no_id.show()

# (4) 筛选出age>30的记录
df_age_gt_30 = df.filter(df.age > 30)
df_age_gt_30.show()

# (5) 将数据按age分组
df_grouped_by_age = df.groupBy("age").count().show()

# (6) 将数据按name升序排列
df_sorted_by_name = df.orderBy("name")
df_sorted_by_name.show()

# (7) 取出前3行数据
df_first_3_rows = df.limit(3)
df_first_3_rows.show()

# (8) 查询所有记录的name列，并为其取别名为username
df_username = df.select(df["name"].alias("username"))
df_username.show()

# (9) 查询年龄age的平均值
mean_age = df.agg({"age": "avg"}).collect()[0][0]
print(mean_age)

# (10) 查询年龄age的最小值
min_age = df.agg({"age": "min"}).collect()[0][0]
print(min_age)

python3 ans3.py

（1）

（2）

（3）

（4）

（5）

（6）

（7）

（8）

（9）

（10）

总结

通过查阅博客了解了agg方法可以接收多个聚合函数作为参数，也可以使用字典或多个键值对来指定要聚合的列以及聚合函数。它返回一个DataFrame，其中包含所有指定列的聚合结果。在例如计算平均值时，可以使用agg方法。第二个方法是使用groupBy方法对DataFrame进行分组，然后使用avg方法计算分组后每组age列的平均值，最后使用select方法选择要返回的列，并使用collect方法获取计算结果并转换为一个列表。由于只有一个分组并且只有一个聚合函数，因此列表中只有一个元素。使用索引[0]获取这个元素，然后使用asDict方法将其转换为字典。最后，使用字典的键'avg(age)'获取平均值聚合结果。
编程中也遇到很多问题，如:在数据需要去重时。可以使用Spark提供的dropDuplicates函数进行去重。distinct也是用来去重的，区别是distinct是根据每一条数据进行完整的比对和去重，dropDuplicates可以根据指定的字段进行去重。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

数据库

Spark SQL 基本操作的相关文章

使用 Oracle 中的 Join 查询进行更新

查询有什么问题它无限期地执行 UPDATE table1 t1 SET t1 col t1 Output SELECT t2 col t3 Output t2 col FROM tabl2 t3 LEFT JOIN table1 t2 O
Oracle PL/SQL - NO_DATA_FOUND 异常是否对存储过程性能不利？

我正在编写一个需要进行大量调节的存储过程根据 C NET 编码中的常识异常会损害性能因此我也始终避免在 PL SQL 中使用它们我在此存储过程中的调节主要围绕记录是否存在我可以通过以下两种方式之一进行 SELECT COUNT I
连接2个表区分大小写

我有 2 个表需要获取品牌代码的结果例如在数据库中我有两个不同的品牌但它们的代码是相同的只有小写和大写不同例如代码名称关于耐克和阿迪达斯如何在代码上内连接 2 个表以分别获取这 2 个表现在在内连接之后我得到了这
Postgres 在转换时函数错误/失败时返回空值

我正在尝试转换text价值观timestamp价值观对于下表称为a id c1 1 03 03 2000 2 01 01 2000 3 12 4 1990 4 12 Sept 2011 5 12 1 1999 12 33 12 6 24
如何在MySQL中选择字段具有最小值的数据？

我想从 MySQL 中的表中选择特定字段具有最小值的数据我尝试过 SELECT FROM pieces WHERE MIN price 请问有什么帮助吗这将为您提供所有记录中价格最低的结果 SELECT FROM pieces WHER
在 SQL where 子句中使用带有 IsDate 的 case 语句

我正在尝试清理以下代码中的 where 子句语句 SELECT CONVERT datetime UTC Time Stamp 127 AS TimeStamp FROM Table WHERE CASE WHEN ISDATE UTC T
返回动态列集

我创建了以下函数来根据该函数的参数返回列集 CREATE OR REPLACE FUNCTION getColumns IN column1 text IN column2 text IN column3 text IN column4 t
为什么我的层次结构查询显示重复记录？

我的要求是找到一个月中所有过去的天数以下是我的示例查询 CREATE TABLE custom date full sno NUMBER curr date DATE INSERT INTO custom date full VALUES
如何按月（“年”和“月”）对表进行分区并自动创建每月分区？

我正在尝试按两者对表进行分区Year and Month 我将通过其进行分区的列是具有 ISO 格式 20150110 20150202 等的日期时间类型列例如我有 2010 年 2011 年 2012 年的销售数据我希望数据按年份
无法通过 PyODBC 连接创建数据库

我在用pyodbc in python 2 7 with MS SQL Server 2008R 这是我创建数据库的代码 SQL代码单独在SQL中工作正常但在python中执行时崩溃 SQL command IF EXISTS SELEC
如何解决postgresql中group by和聚合函数的问题

我正在尝试编写一个查询来划分两个 SQL 语句但它显示了我 ERROR column temp missed must appear in the GROUP BY clause or be used in an aggregate fu
收到警告：空值被聚合或其他 SET 操作消除

我有这个架构 create table t id int d date insert into t id d values 1 getdate 2 NULL 做的时候 declare mindate date select mindate
如果h2表不存在则插入

我正在使用H2 我想将一个值插入到表中如果它不存在我使用以下命令创建表 CREATE TABLE IF NOT EXISTS types type VARCHAR 15 NOT NULL UNIQUE 我想做一些类似的事情 REPLAC
什么是“标量”查询？

我正在使用 LLBLGEN 其中有一种方法可以将查询作为scalar query 谷歌搜索给了我一个定义scalar sub query 它们一样吗标量查询是返回由一列组成的一行的查询
PostgreSQL 对 string\varchar 的各种清理

我必须通过以下方式清理一些 varchar 删除特殊字符例如来自封闭列表我已经成功地通过大量使用replace regexp replace来做到这一点但我正在寻找类似于SQL Server中的东西删除以下数字但不删除相邻的数字含
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
MySQL：主键的所有部分都必须为 NOT NULL；如果您需要在键中使用 NULL，请使用 UNIQUE 代替

我的 MySQL 有问题我创建了名为 BucketList 的数据库然后尝试创建名为 tbl user 的表它看起来像这样 CREATE TABLE BucketList tbl user user id BIGINT NULL AU
MySQL 偏移无限行

我想构造一个查询显示表中的所有结果但从表的开头偏移 5 据我所知 MySQLLIMIT需要一个限制和一个偏移量有什么办法可以做到这一点吗来自MySQL LIMIT 手册 http dev mysql com doc refman 5
Oracle使用with子句创建表

我可以从使用形成的查询创建表吗with clause Sure CREATE TABLE t AS WITH some data AS SELECT 1 as some value FROM dual UNION ALL SELECT 2
SQL版本控制方法

SO 有几个关于 SQL 版本控制的问题网上有很多资源但我找不到完全涵盖我想要做的事情的东西首先我在这里谈论一个方法论我熟悉各种源代码控制应用程序也熟悉 Red Gate 的 SQL Compare 等工具并且我知道如何编写应

随机推荐

vscode运行命令是报错：标记“&&”不是此版本中的有效语句分隔符。

问题截图问题原因这个问题的原因和你运行的什么脚本语言没关系即与 py c cpp无关和你在那个终端运行的有关解决方法第一步点击向下箭头并选择选择默认配置文件第二步选择 Windows PowerShell 第三步关闭
数字IC手撕代码-边沿检测（上升沿、下降沿、双边沿）

前言本专栏旨在记录高频笔面试手撕代码题以备数字前端秋招本专栏所有文章提供原理分析代码及波形所有代码均经过本人验证目录如下 1 数字IC手撕代码分频器任意偶数分频 2 数字IC手撕代码分频器任意奇数分频 3 数字IC手撕代
2021羊城杯CTF wp

2021羊城杯部分 wp Web web1 only 4 web2 EasyCurl web3 Checkin Go web4 Cross The Side Re Pwn BabyRop Crypto Miss bigrsa Misc M
FISCO-BCOS如何把WEBASE部署通过的合约方法由api在前端调用

参考文章 fisco bcos官方文档第五章部分通过POST请求数据格式要为json 调用hello合约中的get方法按要求填写需要的信息
决策树的学习

决策树从名字上看就知道其模型的结构为树结构决策树既可以用于分类也可以用于回归之中在分类问题中我们可以认为其是if then规则的集合也可以认为是定义在特征空间与类空间上的条件概率分布在学习过程中利用训练数据和损失函数最小化
因果推理的do算子

在因果推理中我们一般都需要首先构建一个因果图这是后续进行因果分析的基础但是在现阶段笔者的知识看来因果图的构建其实是一个比较主观的过程但偏偏又是后续分析的基础所以略感头疼在构建因果图前我们有必要明白什么是因果关系通俗来说
【JUC并发编程】

本笔记内容为狂神说JUC并发编程部分目录一什么是JUC 二线程和进程 1 概述 2 并发并行 3 线程有几个状态 4 wait sleep 区别三 Lock锁重点四生产者和消费者问题五八锁现象六集合类不安全七 C
统计字符串中，中文字符、英文字符和数字字符的数量

package com suanfa public class ZYSTotal 统计字符串中中文字符英文字符和数字字符的数量 public static void main String args int englishCount 0
指针和数组的相关练习题

目录一一维数组二字符数组三二维数组注意假设本练习题所用的VS编译器是64位平台下的首先要明白数组名的意义 1 sizeof 数组名这里的数组名表示整个数组计算的是整个数组的大小 2 数组名这里的数组名表示整个数组取
帆软之图表详解

帆软之图表详解饼图饼图玫瑰图玫瑰图和饼图类似仅选择不同的图例即可多分类饼图注标题居中不是直接显示标题居中而是隐藏标题偶按照下面的方法将标题加上去柱状图柱状图设置柱子宽度 boby 样式系列固定柱宽注意事项问题描
4.3寸串口屏在智能炒菜机上应用分享

现代人追求高效品质生活的美好愿望以及社会科技的不断发展持续推动着一种新兴经济形态的出现即懒人经济懒人经济的崛起也成为智能家电行业新的增长引擎自动炒菜机便是这一经济形态下的产物对于很多居住于快节奏生活的一二线城市人来说在辛苦工作一整
vue3 递归无限分类树型菜单+搜索功能

我们先来看一下大致实现效果数据可以无限向下增加搜索关键字会自动展开数据 vue3树形结构菜单搜索首先我这个需要自己设计数据源一定要先搞清楚数据是什么结构才能顺利开展下一步有接口的同学可以忽略这一步其中children顾名思义
区块链是如何做到交易记录不可被篡改的

区块链是如何做到交易记录不可被篡改的星目关注 2017 07 19 23 03 字数 1912 阅读 1654评论 4喜欢 1 BlockChain 比特币前一阵子一度超过2万元一枚而且长期来看这远远不是它的极限假如你手里有比特币
Python实现队列

Python实现队列关于队列的介绍请参考 https blog csdn net weixin 43790276 article details 104033337 队列的数据存储结构可以是顺序表也可以是链表本篇使用 Python
Keil中工程文件编译后没有显示.h文件

一第一种解决方法打开Keil软件重新打开试试二第二种解决方法查看是否点击了Show include File Dependencies 1 右击源组记住一定是右击不是双击就可以看到如下画面如果你没有打勾的话那就是如下
开源项目哪家强？Github年终各大排行榜超级盘点（内附开源项目学习资源）

整理 Jane 出品 AI科技大本营导语提到开源项目 2018 年注定是不平凡的一年据 Octoverse 报告数据仅在 2018 年 Github 上的新用户就比过去六年的用户总数还要多存储库数量近一亿这些增长都要归功于开源社
Linux 系统中kill命令杀死进程常用技巧

目录前言基础进阶 1 查找进程号的方式进行改进 2 将常规的两步杀死进程合并为一步 3 强制踢掉登陆用户 kill的注意事项前言在Linux的系统中 kill是我们最常见的命令之一 kill 英语中为杀死的意思顾名思义就是用来
pytorch中使用detach()

import torch nn as nn import torch class net nn Module def init self super init self conv nn Conv2d 3 6 3 stride 2 paddi
GOOGLE地图基站定位-Google Mobile Maps API

如果你在你的手机装过Google Mobile Maps 你就可以发现只要你的手机能连接GPRS 即使没有GPS功能也能定位到你手机所在的位置只是精度不够准确在探讨这个原理之前我们需要了解一些移动知识了解什么是MNC LAC Ce
Spark SQL 基本操作

将下列JSON格式数据复制到Linux系统中并保存命名为employee json id 1 name Ella age 36 id 2 name Bob age 29 id 3 name Jack age 29 id 4 name Ji

Spark SQL 基本操作

总结

Spark SQL 基本操作 的相关文章

随机推荐

热门标签

Spark SQL 基本操作的相关文章