SQL如何进行帕累托分析?(窗口函数、累计百分比分类)

2023-10-27

帕累托分析法是指定决策的统计方法,包含按降序排序的列和表示累积总百分比的线条

【面试题】有一张“学生成绩表”,包含3个字段:学号、课程、成绩。

问题:找出每门课程A类和B类的学生,判断标准是累计占比,0~60%的记为A类,60%~85%记为B类

【解题思路】

什么是二八定律?

二八定律是说在任何一组东西中,最重要的只占一小部分,约20%。比如家店铺,卖的最多的商品数只占20%

什么是ABC分类法?

ABC分类方法是二八定律衍生出来的一种分类方法,由于它把对象分成A、B、C三类,所以叫做ABC分类法,也叫帕累托分析

ABC分类法计算步骤:

1)将分析对象由大到小排序

2)计算每一个对象及排在该对象之前的累计占比

3)将累计占比为0~60%的记为A类,60%~85%记为B类,85%以上记为C类

1. 解题思路

题目要求:找出每门课程A类和B类的学生,判断标准是累计占比,0~60%的记为A类,60%~85%记为B类;

所以,核心问题就是计算累计占比。

那么,什么是累计占比呢?

课程A的累计占比 = 课程A的累计成绩 / 课程A的总成绩

“课程总成绩”很好理解,也就是每门课程的所有学生的成绩总和。

“课程累计成绩”的定义是:

1)每门课程的学生成绩由大到小排序;

2)计算每一个学生及排在该学生之前的课程累计成绩。

举个例子,下表数学课程里按成绩从大到小排序是96、65、55。学号(S002)的数学课程累计成绩是96,学号(S001)的数学课程累计成绩是96+65=161,依此类推。

 

2. 课程累计成绩

累计问题要想到《跟猴子从零学会SQL》里讲过的用窗口函数来解决。

select *,
       sum(成绩) over (partition by 课程 
                       order by 成绩 desc 
                       rows between unbounded preceding and current row) as 课程累计成绩
from 学生成绩表;

 

把这个SQL查询查询结果命名为子查询t1。

这里使用了窗口函数的rows between … and …用法。含义是对“起始行”至“终止行”的字段1求和。


sum(字段1) over (partition by 字段2 
                 order by 字段3 
                 rows between 起始行and 终止行)

对于这道题要求得“每一个学生及排在该学生之前的课程累计成绩”,所以,“起始行”就是每个窗口的第一行(unbounded preceding),“终止行”是当前行(current row)。

3. 课程总成绩

根据指标定义:课程A的累计占比 = 课程A的累计成绩 / 课程A的总成绩。

前面得到分子:每个课程的累计成绩。

还需要得到分母:每个课程的课程总成绩。

每个课程的课程总成绩,涉及到“每个”要想到用“汇总分析”,按课程分组(group by),汇总(求职成绩和sum)


select 课程,sum(成绩) as 课程总成绩
from 学生成绩表
group by 课程;

 

把这个SQL查询查询结果命名为子查询t2。

3.累计占比

根据指标定义:课程A的累计占比 = 课程A的累计成绩 / 课程A的总成绩。

为了方便计算,需要将上面两步得到结果汇总到一个表里。

将第1步得到的每个课程的累计成绩查询结果记为表t1,第2步得到的每个课程的总成绩查询结果记为表t2,进行多表联结。


select t1.学号,
       t1.课程,
       t1.成绩,
       t1.课程累计成绩,
       t2.课程总成绩,
       t1.课程累计成绩/2.课程总成绩 as 累计成绩占比
from  t1
left join t2 
on t1.课程 = t2.课程;

 把第1、2步的子查询t1、t2代入上面的SQL语句,就得到了:

select t1.学号,
       t1.课程,
       t1.成绩,
       t1.课程累计成绩,
       t2.课程总成绩,
       t1.课程累计成绩/t2.课程总成绩 as 累计成绩占比
from (
select *,
       sum(成绩) over (partition by 课程 
                       order by 成绩 DESC 
                       rows between unbounded preceding and current row) as 课程累计成绩
from 学生成绩表
) as t1
left join (
select 课程,sum(成绩) as 课程总成绩
from 学生成绩表
group by 课程
) as t2 
on t1.课程 = t2.课程;

把这个SQL查询查询结果命名为子查询t3

4.分类

题目要求的是:找出每门课程A类和B类的学生,判断标准是累计占比,0~60%的记为A类,60%~85%记为B类


select t3.学号,
       t1.课程,
       t1.成绩,
       case when t3.累计成绩占比 > 0 and t3.累计成绩占比 <= 0.6 then 'A'
                 t3.累计成绩占比 > 0.6 and t3.累计成绩占比 <= 0.85 then 'B'
                 end as 类别
from t3
where t3.累计成绩占比 <= 0.85;

把第3步的子查询t3代入上面的SQL语句,就得到了:

select t3.学号,
       t3.课程,
       t3.成绩,
       case when t3.累计成绩占比 > 0 and t3.累计成绩占比 <= 0.6 then 'A'
            when t3.累计成绩占比 > 0.6 and t3.累计成绩占比 <= 0.85 then 'B'
            end as 类别
from (
select t1.学号,
       t1.课程,
       t1.成绩,
       t1.课程累计成绩,
       t2.课程总成绩,
       t1.课程累计成绩/t2.课程总成绩 as 累计成绩占比
from (
select *,
       sum(成绩) over (partition by 课程 
                       order by 成绩 DESC 
                       rows between unbounded preceding and current row) as 课程累计成绩
from 学生成绩表
) as t1
left join (
select 课程,sum(成绩) as 课程总成绩
from 学生成绩表
group by 课程
) as t2 
on t1.课程 = t2.课程
) as t3
where t3.累计成绩占比 <= 0.85;

【本题考点】

1.考查对帕累托分析思路的理解;

2.考查对窗口函数的了解,以及灵活使用来解决业务问题;

3.考查对多表联结的了解。

第二种解决代码

select * from(
select c.`学号`,c.`课程`,c.`成绩`,
case when c.`课程累计成绩`/c.`课程总成绩` > 0 and c.`课程累计成绩`/c.`课程总成绩` <=0.6 then 'A' 
when c.`课程累计成绩`/c.`课程总成绩`> 0.6  and c.`课程累计成绩`/c.`课程总成绩`<=0.85 then 'B'
end as '类别'
from (
select *,SUM(a.`成绩`) over (partition by a.`课程` ORDER BY a.`成绩` desc) as '课程累计成绩',SUM(a.`成绩`) over (partition by a.`课程`) as '课程总成绩'from `学生成绩表` as a ) as c) as d
where d.`类别` is not NULL

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

SQL如何进行帕累托分析?(窗口函数、累计百分比分类) 的相关文章

  • SQL Server Like 查询不区分大小写

    Query SELECT from Table 2 WHERE name like Joe Output 1 100 Joe 2 200 JOE 3 300 jOE 4 400 joe 为什么不区分大小写 Problem 查询不区分大小写
  • SQL 选择 n 到 m 关系

    我有一个n to m之间的关系Author and Book 表作者 ID Name 1 Follett 2 Rowling 3 Martin 桌书 ID Title Category 1 A Dance with Dragons Fant
  • 删除重复的行并需要在mysql中保留所有行中的一个[重复]

    这个问题在这里已经有答案了 我想删除基于两列的重复行 但需要保留所有行 1 行 重复行可以多于两行 例如 ID NAME PHONE 1 NIL 1234 2 NIL 1234 3 NIL 1234 4 MES 5989 我想从上面 3 行
  • Magento 设置脚本中的 ALTER TABLE 不使用 SQL

    乔纳森 戴 https stackoverflow com users 336905 jonathan day says 更新不应采用以下形式 SQL命令 我没遇到过 任何 DDL 或 DML 语句不能 通过 Magento 的配置执行 结
  • ORA-00933 与内部联接和“as”混淆

    我有一个使用以下命令从两个表中获取数据的查询inner join 但我收到错误SQL command not properly ended as 下面有一个星号 select P carrier id O order id O aircra
  • 我应该使用平面表还是标准化数据库?

    我目前正在开发一个使用 MySQL 数据库作为后端的 Web 应用程序 在继续下一步之前 我需要知道什么更适合我的情况 简而言之 在这个应用程序中 用户将能够使用任何数字字段 他们决定 构建自己的表单 现在我将其全部存储在通过外键链接的几个
  • 如何计算 Postgres 上图表中所有连接的节点(行)?

    我的桌子有account id and device id One account id可以有多个device ids 反之亦然 我正在尝试计算每个连接的多对多关系的深度 Ex account id device id 1 10 1 11
  • Extbase - 从查询中获取创建的sql

    我想从我的typo3 扩展中获取一些数据库表 该扩展基于 extbase 查询总是不返回任何内容 但数据存在 我试过这个 query this gt createQuery query gt statement SELECT FROM my
  • 没有为 1 个或多个必需参数给出值。更新SQL

    我正在编写一个程序 当用户在列表视图上选择记录时 该程序会更新密码或积分 我收到错误 没有为 1 个或多个必需参数给出值 我不知道如何纠正 我是否遗漏了一些明显的东西 Dim sql As String UPDATE Users SET P
  • 一个表可以有多个主键吗?

    我现在很困惑 也许你可以帮助我更好地理解这个问题 即一个表可以有两个主键 如果是 那么如何 如果没有 那为什么 您询问是否可以有多个主键field你当然可以 您只能有一个主键 但它可以包含唯一标识行所需的任意数量的列 创建表时使用类似这样的
  • 包含列和行总计的 SQL 数据透视表

    我正在尝试将行和列总计添加到该数据透视表中 create table test4 city nvarchar 10 race nvarchar 30 sex nvarchar 10 age int insert into test4 val
  • NVARCHAR 变量在Where 子句中不起作用

    在 SQL Server 我想是 2018 我不知道如何判断 中 我的变量不起作用WHERE的条款NVARCHAR 比较应该返回值 但它什么也没返回 如果我只是手动输入声明的文本 它会突然起作用并返回值 没有任何逻辑原因应该有任何不同 类型
  • Snowflake 中的动态 SQL

    当我在雪花中运行动态 SQL 时 遇到以下错误 未完成对 SQL MAIN 的分配 因为值超出了变量的大小限制 它的大小是263 限制为 256 内部存储大小以字节为单位 这是代码 SET v G 1 SET v G1 v G VARCHA
  • 3 个表的 SQL 查询(或联接)

    第一次在 Stack Overflow 上问问题 很棒的资源 但是只有一件事真正让我作为 SQL 新手感到困惑 我有三个表 我想获取与鲍勃的学生相关的所有导师的姓名 表 1 教师 ID Name 1 Bob 表 2 学生 STUDENT I
  • 如何用约束标记一大组“传递群”?

    在 NealB解决方案之后进行编辑 与以下解决方案相比 NealB的解决方案非常非常快任何另一个 https stackoverflow com q 18033115 answers and 提出了关于 添加约束以提高性能 的新问题 Nea
  • Oracle SQL 函数中可以有 commit 语句吗

    在 SQL 函数中使用 COMMIT 语句是否可能 有意义 从技术上来说 答案是肯定的 你can请执行下列操作 create or replace function committest return number as begin upd
  • 如何拥有引用另一个表的检查约束?

    我在 SQL Server 2008 数据库中有以下表 tblItem 其中有一个ItemID field 好项目 它还有一个 ItemID 字段 并且有一个指向 tblItem 的外键 tblBadItem 它也有一个 ItemID 字段
  • 将布尔参数传递给 SQL Server 存储过程

    我早些时候问过这个问题 我以为我找到了问题所在 但我没有 我在将布尔参数传递给存储过程时遇到问题 这是我的 C 代码 public bool upload false protected void showDate object sende
  • 在同一查询中选择 Count of ip 和 Count of DISTINCT ip

    我有一个这样的表结构 TABLE NAME counter id datetime url ip 1 2013 04 12 13 27 09 url1 ip01 2 2013 04 13 10 55 43 url2 ip02 3 2013
  • 在Oracle中使用IW和MM

    我使用 IW 表示每周结果 使用 MM 表示每月结果 但我总是收到错误 ORA 00979 not a GROUP BY expression 00979 00000 not a GROUP BY expression 我的疑问是这些 We

随机推荐