如何计算留存率（Hive Sql or Spark sql）

2023-11-09

在互联网行业中，用户在某段时间内开始使用应用，经过一段时间后，仍然继续使用该应用的用户，被认作是留存用户，这部分用户占当时新增用户的比例即是留存率，会按照每隔1单位时间（例日、周、月）来进行统计。顾名思义，留存指的就是“有多少用户留下来了”。留存用户和留存率体现了应用的质量和保留用户的能力，那么我们怎么样计算留存率呢？看下面这个例子：

如上示例所示，我们如何通过Hive Sql 或者 Spark Sql 解决这个问题呢

我们将问题拆开，先求某一天的数据，比如我们求20180501 这一天的的用户活跃数，次日留存用户数，三日留存用户数，七日留存用户数：SQL如下：

select a.dayno 日期,
count(distinct a.uid) 活跃用户数,
count(distinct b.uid) 次日留存用户数,
count(distinct c.uid) 三日留存用户数,
count(distinct d.uid) 七日留存用户数
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno = a.dayno + 1
left join act_user_info c on a.uid = c.uid and c.dayno = a.dayno + 3
left join act_user_info d on a.uid = d.uid and d.dayno = a.dayno + 7
group by a.dayno

我们知道：留存率= 某日新增的用户数，过后几日还登录的用户数 / 某日新增的用户数*100% ，由此我们可以得出

select  aa.dayno 日期,
  aa.活跃用户数,
  aa.次日留存用户数,
  aa.三日留存用户数,
  aa.七日留存用户数, 
concat(round(100 * 次日留存用户数/活跃用户数, 2), '%') 次日留存率,
concat(round(100 * 三日留存用户数/活跃用户数, 2), '%') 三日留存率,
concat(round(100 * 七日留存用户数/活跃用户数, 2), '%') 七日留存率
from (
select a.dayno 日期,
count(distinct a.uid) as 活跃用户数,
count(distinct b.uid) as  次日留存用户数,
count(distinct c.uid) as 三日留存用户数,
count(distinct d.uid) as 七日留存用户数
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno = a.dayno + 1
left join act_user_info c on a.uid = c.uid and c.dayno = a.dayno + 3
left join act_user_info d on a.uid = d.uid and d.dayno = a.dayno + 7
group by a.dayno
) aa;

至此我们求出了答案，我们对此问题升级：比如需要求如下的值：

180日内的留存

针对这两个问题，我们又该怎么解决。

首先我们理解下题目，7日内的留存，也就是从次日一直到底七日的留存，当然我们也可以利用上面的方式计算，但是上面的方式要是计算180日内的留存就很麻烦了，那针对于这种连续日求留存我们又应该怎么求呢，同理我们先将问题拆分

首先我们需求求出连续7日内的留存数，如下：

select a.dayno 日期,
       (b.dayno - a.dayno) as days,   
count(distinct a.uid) as 活跃用户数,
count(distinct b.uid) as  n日留存用户数,
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno > a.dayno  and b.dayno - a.dayno >=180
group by a.dayno,days
order by days asc

进而我们求出SQL 如下：

select aa.日期,
       aa.活跃用户数,
	   concat(aa.days, '日用户留存'),
	   aa.n日留存用户数,
       concat(round(100 * aa.n日留存用户数/aa.活跃用户数, 2), '%')	 as  n日留存用户数 
from (
select a.dayno 日期,
       (b.dayno - a.dayno) as days,   
count(distinct a.uid) as 活跃用户数,
count(distinct b.uid) as  n日留存用户数,
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno > a.dayno  and b.dayno - a.dayno >=180
group by a.dayno,days
order by days asc) as aa

再进一步，我们如何求出连续180日的活跃用户呢，我们先分析这个问题，连续180日的活跃用户也就是这个用户出现在180日内的每一天，具体sql如下：

select  bb.uid, count(1) as num  from 
(select 
distinct b.dayno, 
         b.uid,		
from act_user_info a
inner join act_user_info b on a.uid = b.uid  and b.dayno > a.dayno 
      and b.dayno - a.dayno >=180) as bb
group by bb.uid	 
where count(1) >=180

至此我们对留存率和留存用户数据的计算到此结束

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

面试

sql

如何计算留存率（Hive Sql or Spark sql）的相关文章

如何进行数据透视并计算列平均值

我承认这是迄今为止我必须面对的最复杂的 SQL 语句之一我在这件事上碰壁了我希望有人能帮我一把我在数据库中有这张表 Item ActiveTime sec DateTime 1 10 2013 06 03 17 34 22 gt Mo
Extbase - 从查询中获取创建的sql

我想从我的typo3 扩展中获取一些数据库表该扩展基于 extbase 查询总是不返回任何内容但数据存在我试过这个 query this gt createQuery query gt statement SELECT FROM my
C# using 语句、SQL 和 SqlConnection

使用 using 语句 C SQL 可以吗 private static void CreateCommand string queryString string connectionString using SqlConnection c
根据由另一列分组的不同列的最大值获取值[重复]

这个问题在这里已经有答案了我想根据由另一列分组的不同列的最大值来获取列的值我有这张表 KEY NUM VAL A 1 AB B 1 CD B 2 EF C 2 GH C 3 HI D 1 JK D 3 LM 并想要这样的结果 KEY V
以编程方式插入行（父行和子行）

我正在使用 Spring 和 JDBCTemplate 该场景是 CUSTOMER 表和 ORDERS 表的父子关系我想做一个插入例如 1 个客户和 5 个订单但我不确定如何以编程方式在 CUSTOMER 表中插入一行如何获取 Or
包含列和行总计的 SQL 数据透视表

我正在尝试将行和列总计添加到该数据透视表中 create table test4 city nvarchar 10 race nvarchar 30 sex nvarchar 10 age int insert into test4 val
postgresql：插入...（选择*...）

我不确定它是否是标准 SQL INSERT INTO tblA SELECT id time FROM tblB WHERE time gt 1000 我正在寻找的是如果 tblA 和 tblB 位于不同的数据库服务器中怎么办 Postg
将两个表合并为一个输出

假设我有两张表已知营业时间 ChargeNum CategoryID Month Hours 111111 1 2 1 09 10 111111 1 3 1 09 30 111111 1 4 1 09 50 222222 1 3 1 09
SQL 使用另一列的键和最大值设置列

我需要根据同一 ID 的 duration 列的最大值更新 max register 列将值设置为 1 其他值设置为 0 初始表 Id duration max register 1 0 0 1 7 0 1 3 0 2 10 0 2 5
SQL - 需要查找重复记录但排除反向事务

我有一张交易表偶尔会有重复条目如果当管理员发现这些重复条目时他们将撤销交易从而创建负值但由于监管要求原始重复条目仍然保留我想创建一个 SQL 查询并使用 Crystal Reports 来制作报告以便管理员轻松查找重复
获取mysql中逗号分隔行中不同值的计数

一个表 Jobs 有 2 列 JobId 城市当我们保存工作时工作位置可能是多个城市如下所示 JobId City 1 New York 2 New York Ohio Virginia 3 New York Virginia 我如何
Oracle：按月分区表

我的解决方案德语几个月 PARTITION BY LIST to char GEBURTSDATUM Month PARTITION p1 VALUES JANUAR PARTITION p2 VALUES Februar PARTITI
meta_query，如何使用关系 OR 和 AND 进行搜索？

已解决请参阅下面的答案我有一个名为的自定义帖子类型BOOKS 它有几个自定义字段名称为 TITLE AUTHOR GENRE RATING 我该如何修复我的meta query下面的代码以便仅books在自定义字段中包含搜索词 tit
处理与不同相关实体的一对多的正确模式

我有一个 C 项目我使用实体框架作为 ORM 我有一个User 可以向多家银行付款每家银行都是一个独立的实体并且每家银行都由不同的字段描述问题是一User可以没有或有很多不同的Banks 我不太确定如何对此进行建模临时解决方案是
Ruby ActiveRecord 和 sql 元组支持

ActiveRecord 是否支持 where 子句中的元组假设底层数据库支持结果 where 子句看起来像这样 where name address in John 123 Main St I tried Person where n
无法与重定向器建立连接。确保“sql browser”服务正在运行

所以我尝试这个 sql server 2012 由于这个错误我无法打开任何 ssis 包无法与重定向器建立连接确保 sql browser 服务正在运行我的 Sql 浏览器肯定正在运行我尝试在本地服务本地系统和网络下更改它仍然没
MySQL“列计数与第 1 行的值计数不匹配”是什么意思

这是我收到的消息 ER WRONG VALUE COUNT ON ROW 列计数与第 1 行的值计数不匹配这是我的全部代码我的错误在哪里 DROP TABLE student CREATE TABLE employee emp id I
查看Jasper报告执行的SQL

运行 Jasper 报表其中 SQL 嵌入到报表文件 jrxml 中时是否可以看到执行的 SQL 理想情况下我还想查看替换每个 P 占位符的值 Cheers Don JasperReports 使用 Jakarta Commons
总和和不同不会改变结果？

我是一个新手试图在这里解决这个问题到目前为止还没有运气非常感谢任何帮助 Select Distinct AB agency no ab branch no AS AGENCY BRANCH count AB agency no ab
多边形内的 SQL 地理点在 STIntersect 上不返回 true（但使用 Geometry 返回 true）

我不想仅仅为了在 STIntersect 中返回 true 而将地理数据转换为几何图形下面是 SQL 中的代码 DECLARE point GEOGRAPHY GEOGRAPHY Point 1 1 4326 DECLARE polygo

随机推荐

接口超时分析

原文接口突然超时 1 网络异常 1 1 网络抖动经常上网的我们肯定遇到过这样的场景大多数情况下我们访问某个网站很快但偶尔会出现网页一直转圈加载不出来的情况有可能是你的网络出现了抖动丢包了网页请求API接口或者接口返回数据
Ubuntu16.04下caffe安装编译全过程（CPU）

caffe是深度学习最好用的框架之一但caffe的安装编译过程相对较复杂本人在安装编译时百度了好几个版本都没有一次成功过因此在此总结一下自己的编译过程本文是在Ubuntu16 04下安装编译caffe 其他版本会略有不同该教程本
com.alibaba.druid.support.logging.JakartaCommonsLoggingImpl.

问题 IDEA调试JDBC出错 com alibaba druid support logging JakartaCommonsLoggingImpl error create connection SQLException url jdb
外包测试3年，离职后成功入职阿里，拿到offer的那天我泪目了...

一提及外包测试大部分人的第一印象就是工作强度大技术含量低没有归属感外包工作三年总体感受就是这份工作缺乏归属感心里总有一种落差进步空间不大接触不到核心技术公司没有针对你的技术培训与探究工作简单业务重复通常是工具人的存在
QDockWidget布局方式

上图为DockWidget多控件效果图 QDockWidget dock QLatin1String Last filters QWidget multiWidget new QWidget QVBoxLayout layout new Q
oracle生成不同uuid,oracle生成uuid

select sys guid from dual gt 78AE331ADB2B4CE7AB598B1317B39D58 但该函数如下问题 1 返回类型为RAW 2 没有 dash 分隔符 3 返回的字母大写为了使产生的uuid符合rf
vue3之createApp分析

函数定义 createApp函数定义在文件 packages runtime dom src index ts中 export const createApp args gt const app ensureRenderer createA
Python 贝叶斯在文本分类的应用案例

关注微信公共号小程在线关注CSDN博客程志伟的博客 1 1 文本编码技术简介 1 1 1 单词计数向量在开始分类之前我们必须先将文本编码成数字一种常用的方法是单词计数向量在这种技术中一个样本可以包含一段话或一篇文章这个样
10种排序算法总结(Python 版)

文章目录 1 冒泡排序 O n 2 2 快速排序 O nlogn 3 简单插入排序 O n 2 4 希尔排序 O n log n 5 简单选择排序 O n 2 6 堆排序 O n log n 7 归并排序 O n log n 8 计数排序
解决keil5编译报错 undefined symbol

在编译keil5 工程时出现报错 xxx axf Error L6218E Undefined symbol xxx referred from xxxo 正常情况下遇到Undefined symbol问题根据经验有以下几种原因 1 c文件
pinia实现持久化存储

pinia的作用是什么 Pinia 是 Vue 的存储库它允许您跨组件页面共享状态如果您熟悉 Composition API 您可能会认为您已经可以通过一个简单的 export const state reactive 这对于单页应用
论文笔记--Attention is all you need

Attention is all you need transformer模型摘要当前的序列转录模型基于encoder和decoder的循环或卷积神经网络较好的做法是在encoder和decoder中间加入一个注意力机制我们提出了一
使用Spyder，导入tensorflow以及相关库出现kernel died等问题的解决方法

自从使用了Spyder之后感觉腰不算了腿不疼了走路都带风了呵呵好吧那是之前使用Spyder给我的感觉就好像一台快报废的电脑重新装了系统一样刚开始顺风顺水可是后来就发现毕竟是老年机容易出现个什么白内障风湿病什么的做一些
离散数学：数学语言与证明方法（练习题）

练习1 1 判断下列命题是真是假 1 x x 答假 x 并不是 x 元素 2 x x 答真 x 是 x 子集 3 x x 答真 x 是 x 元素 4 x x 答假 x 不是 x 子集 5 x 答真是 x 元素但不是任何集合元素
SpringBoot：构建一个SpringBoot项目

文章目录一创建项目 1 点击 File gt Project 2 选择 Spring Initializr 3 填写项目基本信息 5 目录结果 6 pom xml 依赖 7 主函数入口二项目启动测试三项目源码 SpringBo
MongoDB常见问题

问题一还原报错 root mongodb bin mongorestore h 127 0 0 1 27017 d runoob directoryperdb data db runoob 2022 12 19T19 47 23 909
[LeetCode-21]-Merge Two Sorted Lists(有序列表合并)

文章目录题目相关 Solution 不带头结点增加头结点使用递归题目相关题目解读合并两个有序列表并返回新列表原题描述原题链接 Merge two sorted linked lists and return it as a
合并两个有序表到新的有序表

系列目录左右移动旋转数组元素查找两个升序数组的中间数判断数组的某一个元素的数量是否超过了整个数组数量的一半文图介绍将有序数组A和有序数组B合并得有序数组C A 1 2 3 4 5 B 2 3 4 5 6 C 1 2 2 3 3
java什么时候用异常_深入理解Java异常的使用场景

最近在项目代码中遇见异常滥用的情形分析下会带来哪些后果 1 代码可读性变差业务逻辑难以理解异常流与业务状态流混在一起无法从接口协议层面理解业务代码只能深入到方法 Method 内部才能准确理解返回值的行为可看一下代码 publ
如何计算留存率（Hive Sql or Spark sql）

在互联网行业中用户在某段时间内开始使用应用经过一段时间后仍然继续使用该应用的用户被认作是留存用户这部分用户占当时新增用户的比例即是留存率会按照每隔1单位时间例日周月来进行统计顾名思义留存指的就是有多少用户留下来了

如何计算留存率（Hive Sql or Spark sql）

如何计算留存率（Hive Sql or Spark sql） 的相关文章

随机推荐

热门标签

如何计算留存率（Hive Sql or Spark sql）的相关文章