Hive lag()与lead() 函数

2023-05-16

lag与lead函数是跟偏移量相关的两个分析函数，通过这两个函数可以在一次查询中取出同一字段的前N行的数据(lag)和后N行的数据(lead)作为独立的列,从而更方便地进行进行数据过滤。这种操作可以代替表的自联接，并且LAG和LEAD有更高的效率。

over()表示 lag()与lead()操作的数据都在over()的范围内，他里面可以使用partition by 语句（用于分组） order by 语句（用于排序）。partition by a order by b表示以a字段进行分组，再以b字段进行排序，对数据进行查询。

例如：lead(field, num, defaultvalue) field需要查找的字段，num往后查找的num行的数据，defaultvalue没有符合条件的默认值。
　　
如：1、获取当前记录的id，以及下一条记录的id



select t.id id ,
       lead(t.id, 1, null) over (order by t.id)  next_record_id, t.cphm
from tb_test t       
  order by t.id asc

如：2、获取当前记录的id，以及上一条记录的id

select t.id id ,
       lag(t.id, 1, null) over (order by t.id)  next_record_id, t.cphm
from tb_test t       
  order by t.id asc

如：3、获取号牌号码相同的，当前记录的id与，下一条记录的id（使用partition by）

select t.id id, 
       lead(t.id, 1, null) over(partition by cphm order by t.id) next_same_cphm_id, t.cphm
from tb_test t
     order by t.id asc

如：4、查询 cphm的总数，当create_date与下一条记录的create_date时间间隔不超过10分钟则忽略

select cphm, count(1) total from
(
select t.id, 
  t.create_date t1,
  lead(t.create_date,1, null) over( partition by  cphm order by create_date asc ) t2,  
  ( lead(t.create_date,1, null) over(  partition by  cphm order by create_date asc )  - t.create_date ) * 86400 as itvtime,
  t.cphm
from tb_test t 
  order by t.cphm, t.create_date asc
) tt
where tt.itvtime >= 600 or  tt.itvtime  is null
group by tt.cphm

下面还有很多用法，就不一一列举了，简单介绍一下，和上面用法类似：

      count() over(partition by ... order by ...)：求分组后的总数。
　　max() over(partition by ... order by ...)：求分组后的最大值。
　　min() over(partition by ... order by ...)：求分组后的最小值。
　　avg() over(partition by ... order by ...)：求分组后的平均值。
　　lag() over(partition by ... order by ...)：取出前n行数据。　　

　　lead() over(partition by ... order by ...)：取出后n行数据。

　　ratio_to_report() over(partition by ... order by ...)：Ratio_to_report() 括号中就是分子，over() 括号中就是分母。

　　percent_rank() over(partition by ... order by ...)：

over partition by与group by的区别：

group by是对检索结果的保留行进行单纯分组，一般和聚合函数一起使用例如max、min、sum、avg、count等一块用。
partition by虽然也具有分组功能，但同时也具有其他的高级功能。

参考：
https://www.cnblogs.com/always-online/p/5010185.html
http://www.cnblogs.com/lcngu/p/5335170.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive lag()与lead() 函数的相关文章

Spark CDH 5.7 上的 Hive - 无法创建 Spark 客户端

我们在使用 Spark 引擎执行 Hive 查询时收到错误执行spark任务失败出现异常 org apache hadoop hive ql metadata HiveException 创建失败 Spark 客户端失败执行错误返
在hive中如何将字符串转换为数组？

我使用的是蜂巢1 1 hive gt select country from releases limit 1 OK us ca fr 目前国家在 hive 中是字符串类型如何将其转换为数组 String 我尝试了下面的方法但它抛出错
如何使用用户提供的 Hadoop 正确配置 Spark 2.4

我想使用 Spark 2 4 5 当前稳定的 Spark 版本和 Hadoop 2 10 2 x 系列中当前稳定的 Hadoop 版本此外我需要访问 HDFS Hive S3 和 Kafka http spark apache org
在 HIVE 中查找函数

我想检查一个字段是否包含字符串我想要一个如下所示的函数 FIND string to find field to search 我的数据如下所示 field to search no match in this string record
将 Hive 表导出到 hdfs 中的 csv

我知道在 Hive 中将表保存到 csv 或其他文本文件时分隔符存在一个已知问题所以我想知道你们是否可以帮助我解决这个问题我有一个现有的表表 A 我想将其以 csv 格式保存到 hdfs 通过阅读其他回复我相信我必须首先创建一个
HIVE JDBC ThriftHive$Client.sendBase

我在 Hadoop hive 上工作我已经安装了 hadoop 和 hive 它在命令提示符下运行良好我还创建了 hive 的 MySQL 元存储我在 hive site xml 文件中定义了 HIVE DB 数据库名称 MySQL
hive 查询特定联合类型的记录

我创建了一个示例配置单元表 CREATE TABLE union test foo UNIONTYPE
Hive 分区表上的 Spark 行为

我用的是 Spark 2 实际上我不是执行查询的人所以我不能包含查询计划数据科学团队问过我这个问题我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储当在 Spark 中使用相应的表时执行器之间恰好执行了 2
使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
如何获取hive中的数据库用户名和密码

正在编写jdbc程序来连接hive数据库我希望在连接 url 中提供用户名和密码我不知道如何使用 hive QL 获取用户名和密码有人可以帮我吗 Exception in thread main java sql SQLNonTran
是否可以使用 impala 查询包含 DATE 类型列的 Hive 表？

每次我尝试在 IMPALA 中从 HIVE 中创建的表中选择 DATE 类型字段时都会收到 AnalysisException Unsupported type DATE 有什么解决方法吗 UPDATE这是从 hive 创建表模式和 im
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
比较当前月份和上个月的列上的行，SQL Server 2012

我需要一些指导和帮助来解决我不完全确定如何在 SQL Server 2012 中解决的问题我认为LAG and LEAD函数可能有用但我不确定这就是我的数据现在的样子 YearMonth LocationCode Active 201
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
我们可以预测 Hive SELECT * 查询结果的顺序吗？

是否有可能a的结果的顺序SELECT query no ORDER BY 如果使用相同的 DBMS 作为 Metastore 那么总是相同的吗所以只要使用MySQL作为Metastore 结果的顺序就为aSELECT 查询将始终相同如
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做

随机推荐

C++ 二叉树实现词频分析

通过二叉树存单词 xff0c 并且对总共的单词数量进行计数 xff0c 二叉树自适应的将出现频率高的单词往上移动以减少二叉树的搜索时间代码如下 span class hljs comment genSplay h span span cl
C++ cout输出字符

cout输出字符时 xff0c 可以使用单引号 xff1a cout lt lt span class hljs string 39 39 span lt lt endl span class hljs regexp span 输出分号 s
Linux 多进程多线程编程

一创建进程 1 进程号进程号的类型是pid t xff08 typedef unsigned int pid t xff09 获得进程和父进程ID的API如下 xff1a include lt sys types h gt includ
dpdk探究1-理解dpdk的运行逻辑

DPDK介绍 DPDK主要功能 xff1a 利用IA xff08 intel architecture xff09 多核处理器进行高性能数据包处理 Linux下传统的网络设备驱动包处理的动作可以概括如下 xff1a 数据包到达网卡设备网卡设
C++11多线程实现的一道面试题

题目 xff1a 子线程循环 10 次 xff0c 接着主线程循环 100 次 xff0c 接着又回到子线程循环 10 次 xff0c 接着再回到主线程又循环 100 次 xff0c 如此循环50次 xff0c 试写出代码这里涉及到的问题
第四章智能指针

裸指针问题如下 xff1a 裸指针在声明中并未指出 xff0c 裸指针指涉到的是单个对象还是一个数组裸指针在声明中也没有提示是不是要对其进行虚构换言之 xff0c 无法得知指针是否拥有其指涉的对象或者是否空悬指针的析构是不是拥有重载的
dpdk无锁队列

这篇博客是从网上博客整理摘抄而来 xff0c 具体参考的博客内容在文末给出 Linux无锁队列 kfifo概述 Linux内核中有一个先进先出的数据结构 xff0c 采用环形队列的数据结构来实现 xff0c 提供一个无边界的字节流服务最重
C++虚函数和虚函数表原理

虚函数的地址存放于虚函数表之中运行期多态就是通过虚函数和虚函数表实现的类的对象内部会有指向类内部的虚表地址的指针通过这个指针调用虚函数虚函数的调用会被编译器转换为对虚函数表的访问 xff1a ptr gt span class hl
非递归快排

非递归快排通过使用栈来模拟函数栈的调用 xff0c 每次将首尾指针存入到栈中 xff0c 并对首尾之间区域进行快排 span class hljs preprocessor include lt iostream gt span span
ppt基础篇--自学笔记

字体给文字加边框加背景底纹logo 方框加透明框拆分字体镂空不规则图形 xff08 结合背景 xff09 图片删除背景 xff08 两张叠加 xff09 点击设置透明色 xff08 背景为纯色 xff09 背景虚化添加矩形
Golang Assertion

Go中所有的类型都可以被转化成interface xff0c 通常在传入可变参数中的API中 xff0c 可变参数的类型就是interface func typeConversion strs interface ret string fo
解决Idea Maven生成的jar运行出现“没有主清单属性”问题

1 问题描述通过maven构建了jar文件 xff0c 如图所示 2 命令窗口运行jar 提示没有主清单属性 2 1 分析问题在打包构建的jar目录内 xff0c 可以看到有一个MANIFEST MF文件 xff0c 如图所示 xff
VMWare虚拟机扩展磁盘空间（扩充root根目录空间）

1 扩展虚拟机磁盘空间 Vm虚拟机下Linux扩展原有磁盘空间 xff0c 10G 10G的基础上不能满足需求 xff0c 只好进行磁盘扩展调整到合适的磁盘空间需注意以下几点 xff1a linux只能扩展磁盘容量而不能减小 xff0c
vim批量操作技巧

vim批量操作技巧目录 vim批量操作技巧一列操作二批量复制与删除三批量替换四批量注释一列操作删除列在正常模式下 xff08 一般按Esc键就是 xff09 光标定位 CTRL 43 v 进入 VISUAL BLOCK 可
VMware17pro图解安装 Rocky Linux 9.1

1 引言 Rocky Linux为CentOS Linux 的继承者 RHEL 9 的复制品下面是在VMware上安装实例 1 1 下载安装VMware VMware下载 xff1a VMware官网下载 1 2 下载Rocky9 x镜像
（二）Proxmox7.3 VE 安装Rocky9.1系统

1 准备环境 PVE虚拟管理平台能正常访问 https IP 8006 由于我的服务器磁盘空间不足4G了 xff0c 这里我就安装个debian虚拟机来演示吧 xff0c 毕竟它小巧不占用地方 xff0c 主要是想记录好pve创建虚拟机的步
No Spring Session store is configured: set the 'spring.session.store-type'

发现session store type使用来存放session的存储方式 xff0c 目前Spring boot中只支持Redis方式由于本应用暂无需将session放入redis的需求 xff0c 故这里就可以将session sto
idea修改git账号及密码的方法

IDEA修改git账号及密码的方法 xff1a 1 file gt settings gt passwords 这里写图片描述默认In KeePass 保存密码切换到Do not save forget password after r
KETTLE使用教程

1 Kettle的下载与安装 kettle的最新下载地址 xff1a http community pentaho com projects data integration 由于Kettle 是采用java 编写 xff0c 因此需要在本
Hive lag()与lead() 函数

lag与lead函数是跟偏移量相关的两个分析函数 xff0c 通过这两个函数可以在一次查询中取出同一字段的前N行的数据 lag 和后N行的数据 lead 作为独立的列从而更方便地进行进行数据过滤这种操作可以代替表的自联接 xff0c 并

Hive lag()与lead() 函数

Hive lag()与lead() 函数 的相关文章

随机推荐

热门标签

Hive lag()与lead() 函数的相关文章