按月分组获取数据集的百分位数

2024-03-28

我有一个 SQL 表，其中包含大量记录，如下所示：

| Date       | Score |
+ -----------+-------+
| 01/01/2010 |     4 |
| 02/01/2010 |     6 |
| 03/01/2010 |    10 |
  ...
| 16/03/2010 |     2 |

我将其绘制在图表上，因此我在图表上画了一条漂亮的线，表示随时间变化的得分。迷人的。

现在，我需要做的是将平均分数包含在图表上，这样我们就可以看到它随着时间的推移如何变化，所以我可以简单地将其添加到组合中：

SELECT 
    YEAR(SCOREDATE) 'Year', MONTH(SCOREDATE) 'Month',
    MIN(SCORE) MinScore, 
    AVG(SCORE) AverageScore, 
    MAX(SCORE) MaxScore
FROM SCORES
GROUP BY YEAR(SCOREDATE), MONTH(SCOREDATE) 
ORDER BY YEAR(SCOREDATE), MONTH(SCOREDATE)

到目前为止这还没有问题。

问题是，如何轻松计算每个时间段的百分位数？我不确定这是否是正确的短语。我总共需要的是：

图表上的分数线（简单）
图表上的平均值线（简单）
图表上的一条线显示 95% 的分数占据的区间（被难住了）

这是第三个，我没看懂。我需要计算 5% 的百分位数字，我可以单独完成：

SELECT MAX(SubQ.SCORE) FROM
    (SELECT TOP 45 PERCENT SCORE 
    FROM SCORES
    WHERE YEAR(SCOREDATE) = 2010 AND MONTH(SCOREDATE) = 1
    ORDER BY SCORE ASC) AS SubQ

SELECT MIN(SubQ.SCORE) FROM
    (SELECT TOP 45 PERCENT SCORE 
    FROM SCORES
    WHERE YEAR(SCOREDATE) = 2010 AND MONTH(SCOREDATE) = 1
    ORDER BY SCORE DESC) AS SubQ

但我不知道如何获得所有月份的表格。

| Date       | Average | 45% | 55% |
+ -----------+---------+-----+-----+
| 01/01/2010 |      13 |  11 |  15 |
| 02/01/2010 |      10 |   8 |  12 |
| 03/01/2010 |       5 |   4 |  10 |
  ...
| 16/03/2010 |       7 |   7 |   9 |

目前，我必须将这些数据加载到我的应用程序中，并自己计算数字。或者运行大量单独的查询并整理结果。

呼。这真是一个脑筋急转弯。首先，我用于测试的表架构是：

Create Table Scores 
( 
    Id int not null identity(1,1) primary key clustered
    , [Date] datetime not null
    , Score int not null
)

现在，首先，我使用 SQL 2008 中的 CTE 计算了这些值，以便检查我的答案，然后构建了一个应该在 SQL 2000 中工作的解决方案。因此，在 SQL 2008 中，我们执行以下操作：

;With 
    SummaryStatistics As
    (
        Select Year([Date]) As YearNum
            , Month([Date]) As MonthNum
            , Min(Score) As MinScore
            , Max(Score) As MaxScore
            , Avg(Score) As AvgScore
        From Scores
        Group By Month([Date]), Year([Date])
    )
    , Percentiles As
    (
        Select Year([Date]) As YearNum
            , Month([Date]) As MonthNum
            , Score
            , NTile( 100 ) Over ( Partition By Month([Date]), Year([Date]) Order By Score ) As Percentile
        From Scores
    )
    , ReportedPercentiles As
    (
        Select YearNum, MonthNum
            , Min(Case When Percentile = 45 Then Score End) As Percentile45
            , Min(Case When Percentile = 55 Then Score End) As Percentile55
        From Percentiles
        Where Percentile In(45,55)
        Group By YearNum, MonthNum
    )
Select SS.YearNum, SS.MonthNum
    , SS.MinScore, SS.MaxScore, SS.AvgScore
    , RP.Percentile45, RP.Percentile55
From SummaryStatistics As SS
    Join ReportedPercentiles As RP
        On  RP.YearNum = SS.YearNum
            And RP.MonthNum = SS.MonthNum
Order By SS.YearNum, SS.MonthNum

现在介绍 SQL 2000 解决方案。本质上，诀窍是使用几个临时表来统计分数的出现情况。

If object_id('tempdb..#Working') is not null
    DROP TABLE #Working
GO
Create Table #Working 
    (
    YearNum int not null
    , MonthNum int not null
    , Score int not null
    , Occurances int not null
    , Constraint PK_#Working Primary Key Clustered ( MonthNum, YearNum, Score )
    )
GO
Insert #Working(MonthNum, YearNum, Score, Occurances)
Select Month([Date]), Year([Date]), Score, Count(*)
From Scores
Group By Month([Date]), Year([Date]), Score
GO
If object_id('tempdb..#SummaryStatistics') is not null
    DROP TABLE #SummaryStatistics
GO
Create Table #SummaryStatistics
    (
    MonthNum int not null
    , YearNum int not null
    , Score int not null
    , Occurances int not null
    , CumulativeTotal int not null
    , Percentile float null
    , Constraint PK_#SummaryStatistics Primary Key Clustered ( MonthNum, YearNum, Score )
    )
GO
Insert #SummaryStatistics(YearNum, MonthNum, Score, Occurances, CumulativeTotal)
Select W2.YearNum, W2.MonthNum, W2.Score, W2.Occurances, Sum(W1.Occurances)-W2.Occurances
From #Working As W1
    Join #Working As W2 
        On W2.YearNum = W1.YearNum
            And W2.MonthNum = W1.MonthNum
Where W1.Score <= W2.Score
Group By W2.YearNum, W2.MonthNum, W2.Score, W2.Occurances

Update #SummaryStatistics
Set Percentile = SS.CumulativeTotal * 100.0 / MonthTotal.Total
From #SummaryStatistics As SS
    Join    (
            Select SS1.YearNum, SS1.MonthNum, Max(SS1.CumulativeTotal) As Total
            From #SummaryStatistics As SS1
            Group By SS1.YearNum, SS1.MonthNum
            ) As MonthTotal
        On MonthTotal.YearNum = SS.YearNum
            And MonthTotal.MonthNum = SS.MonthNum

Select GeneralStats.*, Percentiles.Percentile45, Percentiles.Percentile55
From    (
        Select  Year(S1.[Date]) As YearNum
            , Month(S1.[Date]) As MonthNum
            , Min(S1.Score) As MinScore
            , Max(S1.Score) As MaxScore
            , Avg(S1.Score) As AvgScore
        From Scores As S1
        Group By Month(S1.[Date]), Year(S1.[Date])
        ) As GeneralStats
    Join    (
            Select SS1.YearNum, SS1.MonthNum
                , Min(Case When SS1.Percentile >= 45 Then Score End) As Percentile45
                , Min(Case When SS1.Percentile >= 55 Then Score End) As Percentile55
            From #SummaryStatistics As SS1
            Group By SS1.YearNum, SS1.MonthNum 
            ) As Percentiles
        On Percentiles.YearNum = GeneralStats.YearNum
            And Percentiles.MonthNum = GeneralStats.MonthNum

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

TSQL

statistics

按月分组获取数据集的百分位数的相关文章

出错时退出并回滚脚本中的所有内容

我有一个 TSQL 脚本它可以进行大量数据库结构调整但在出现故障时让它继续执行并不真正安全把事情说清楚使用 MS SQL 2005 它不是一个存储过程只是一个脚本文件 sql 我所拥有的按以下顺序排列 BEGIN TRANSACT
解释 scipy.stats.entropy 值

我正在尝试使用scipy stats 熵来估计库尔巴克莱布勒 KL 两个分布之间的散度更具体地说我想使用 KL 作为衡量标准来确定两个分布的一致性但是我无法解释 KL 值例如 t1 numpy random normal 2 5
为列名创建动态选择获取值 - 在 SQL Server 中

请帮助我创建一个选择 SQL 语句其中的结果列名称是从原始表中的列值获取的表名是Device Part 用户可以输入很多DeviceCode其中有许多动态PartTypeName PartTypeName 值为PartInfo 这可能有
如何在sql中查询xml列

我在 SQL Server 2008 上有一个表 T1 其中包含一个 XML 列 EventXML 我想查询某个节点包含特定值的所有行更好的是我想检索不同节点中的值表T1 T1 EventID int EventTime dateti
sql/mysql 过滤器仅包含最大值

我有一个像这样的结果集 ID name myvalue 1 A1 22 2 A2 22 3 A3 21 4 A4 33 5 A5 33 6 A6 10 7 A7 10 8 A8 10 9 A9 5 我想要的是仅包含包含可用的最高 myval
SQL选择符号||是什么意思意思是？

什么是在 SQL 中做什么 SELECT a b AS letter 表示字符串连接不幸的是字符串连接不能在所有 sql 方言之间完全移植 ANSI SQL 中缀运算符 mysql concat 可变参数函数 caution 表示逻
区分大小写变得疯狂

我有一个数据库我正在尝试执行以下查询 SELECT COUNT FROM Resource WHERE Name LIKE ChinaApp SELECT COUNT FROM Resource WHERE Name LIKE China
查询查找表中姓名和号码之间的重复项

SELECT count lower name number FROM tbl GROUP BY lower name number HAVING count gt 1 输入表1 slno name number 1 aaa 111 2 A
android sqlite 如果不存在则创建表

创建新表时遇到一点问题当我使用 CREATE TABLE 命令时我的新表按应有的方式形成但是当我退出活动时应用程序崩溃并且我在 logcat 中得到一个表已存在如果我使用 CREATE TABLE IF NOT EXISTS 则
从 oracle 中为每个组选择最新行

我在留言簿中有一张包含用户评论的表格列有 id user id 标题评论时间戳我需要为每个用户选择最新行我尝试使用 group by 执行此操作但没有管理它因为我无法在按 user id 分组的同一查询中选择任何其他内容 SE
如何在 where 子句中使用别名？ [复制]

这个问题在这里已经有答案了可能的重复在 WHERE 子句中引用列别名 https stackoverflow com questions 8370114 referring to a column alias in a where cl
SQL：使用相等的键和最近的键进行连接（类似于 Pandas 的合并）

例如我有2个这样的表对于表 1 中的每一行我想获取该行 same customer id and nearest date 就我而言 table2 date lt table1 date 结果应该是这样的我怎样才能在 SQL 中做到
Access SQL 查询：查找表中每个不同条目的最新日期行

All 我确信这是一个非常简单的 SQL 查询问题但我确信有一个很好的方法也有一个非常糟糕的方法来做到这一点如果由我自己决定我很可能会得到后者所以我在 Access 中有一个表其中的数据如下所示 ID Value As of
创建用于存储高尔夫球成绩的可扩展数据库架构

我正在尝试设计一个数据库来存储我所有的朋友和我的高尔夫球成绩您可能知道高尔夫得分由 18 洞的个人得分组成我可以想到两种设计模式的方法创建一个表每个洞有一列例如 h1 到 h18 该表具有引用其他表的 FK player id
当添加列较少时追加到现有 SQLite 表，而不将数据库读入 R

是否有一些简单的方法无论是在 SQL 端还是在 R 端将 data frame 附加到具有更多列的现有表缺失的列应该用 NA 填充如果它能够优雅地处理比表 1 列数更多的表 2 那么会加分吗 library RSQLite Crea
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
SQL：两个没有完整列匹配的表的并集

我有一个table A其中有一组列A1 A2和一个具有一组列的 table bB1 B2 碰巧的是A2 B1但其余列不匹配也不应该匹配我想附加表格所以我使用UNION ALL 对于不匹配的列我使用null as COLUMN NAM
如何在一列中存储数组或多个值

运行 Postgres 7 4 是的我们正在升级我需要将 1 到 100 个选定项目存储到数据库的一个字段中 98 的情况下只会输入 1 个项目而 2 的情况下如果是这样的话会输入多个项目这些项目只不过是文本描述截至目前长
sql查询连接两个服务器中不同数据库的两个表

我在 ServerS 上的数据库中有两个表 tableA 在 ServerB 上的数据库中有两个表我只想根据这些表的公共字段名对这些表执行 fullouter join 在 SQL Server 中您可以创建一个链接服务器在 Mana
sqlite 插入需要很长时间

我正在将不到 200 000 行插入到 sqlite 数据库表中我只是在终端中通过 sqlite3 使用一个非常简单的 sql 文件我打赌它已经运行了至少 30 分钟这是正常现象还是我应该关闭该过程并尝试不同的方法 sqlite中的插

随机推荐

CMS 软件中的空白 index.html 而不是 .htaccess

我注意到 Joomla Wordpress 和其他 CMS 在其所有子文件夹中都有空白的 index html 文件以防止人们窥视文件夹结构我的问题是为什么他们不能禁止使用 htaccess 文件查看文件夹而不是将空白的 index
多个 goroutine 的 Go 内存消耗

我试图检查 Go 在 100 000 个 goroutine 上的表现如何我编写了一个简单的程序来生成许多例程除了打印一些公告之外什么也不做我将 MaxStack 大小限制为仅 512 字节但我注意到程序大小并没有随之减小它消耗了
从运行脚本阶段获取当前方案名称

有没有办法从运行脚本阶段获取当前方案我试过了 SCHEME NAME 但它不存在我找不到要使用的环境变量因此我必须开发一种解决方法将方案名称写入磁盘建立预行动然后将其读回运行脚本 phase 对于您感兴趣的每个方案请访问编辑方案并
LibGDX：如何使平铺地图图块可点击？

如何为平铺地图中的图块添加点击侦听器以便当您用鼠标选择图块时它会突出显示 libGDX 不直接支持这一点因为 TiledMap 内容仅用于渲染您可以轻松创建一个Stage不过它将充当 TiledMap 的某种覆盖输入层只需创建一个
线程中的 GLib GMainContext？

我在堆栈溢出上搜索以找到与我的问题相关的答案但我没有找到任何答案我有一个启动线程的主线程我的 main 函数新线程运行 GMainLoop 在我的主要功能中我不断通过调用添加源g io watch一些文件描述符但如果事件被调度
Python 日志记录和子进程输出以及错误流

我想启动一个 python 进程并将子进程错误消息记录到父脚本的日志记录对象中理想情况下我希望将日志流统一到一个文件中我可以以某种方式访问日志记录类的输出流吗我知道的一种解决方案是使用 proc log 进行日志记录正如下面的答
如何每天在特定时间触发 akka 调度程序？

我创建了一个 Akka 的调度程序每天在固定时间发送邮件例如每天上午 6 00 那么如何称呼演员呢我的意思是我应该使用什么逻辑谢谢只需计算现在和接下来的下午 6 点之间的差异将其作为初始延迟然后每 24 小时重复一次
Rails 5 - 在编辑操作中使用范围来查找特定实例的相关子项

我正在尝试学习如何在 Rails 5 应用程序中使用范围我问了一个背景问题here https stackoverflow com questions 41755032 rails 5 exclude specific instances
在 React 中专注于 div，无需单击即可在模块上启用键盘导航

我正在 React 中从头开始编写一个图像库当单击图像时会弹出一个模式与我的库组件分开的组件我想要使用左右箭头在图片之间导航不仅仅是屏幕上添加的箭头 onclick 但目前它只关注当我单击一次时的模式然后我也可以使用键盘导航 o
AWS - cfn-init 不创建文件

我是云信息新手我正在使用 cfn init 创建文件但不会创建文件我的堆栈也不会失败使用 EC2 实例等所需资源成功创建堆栈它还会安装 AWS CLI 如用户数据中所述但它只是不创建我希望创建的文件我尝试使用不允许回滚堆栈的高
测试 RESTful 服务的方法？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想直接通过 HTTP 测试我的 RESTful 应用程序并且我正在寻找可以帮助我完成该任务的工具基本上我正在寻找一个简单的 HTTP 请求包装器
我是否需要告诉 Apache Tomcat 保持 Websocket 连接打开？

我正在尝试Apache Tomcat Websocket 实现 http tomcat apache org tomcat 7 0 doc web socket howto html 问题是连接总是在最多 30 秒的空闲时间后关闭我是否
通过 DataMapper 来自 SQLite 内存数据库的 No Such Table 错误

我有一个 Ruby 程序它使用 DataMapper 作为 ORM 与内存中的 SQLite DB 进行通信这一直工作得很好但是我最近刚刚添加了一个新的 DM 类和相应的表令我惊讶的是现在在 auto migrate 过程中事情发
内存保护的最新技术水平如何？

我对 C 语言指针和内存管理等低级语言了解得越多我就越想了解现代操作系统和内存保护的最新技术水平例如采取了哪些检查来防止某些恶意程序随机尝试读取尽可能多的地址空间并忽略操作系统设置的规则一般来说这些内存保护方案是如何工作的他们
C# Microsoft Graph - 如何从 msal-browser 发送带有访问令牌的电子邮件

我正在使用 C Microsoft Graph 发送电子邮件但当我调用等待 graphClient Me SendMail message Request PostAsync 时我遇到错误对象引用未设置到对象的实例方法我尝试首先调
如何找到ZedGraph上的索引位置

有没有办法根据当前的 xPosition 找到曲线的索引位置假设我有一个曲线项目 MyCurve 它有 20k 点当鼠标移动时我可以获得鼠标位置然后只需使用以下函数即可获得 x 和 y 位置 double xPos 0 yPos 0
错误 lnk2005 已在 .obj 中定义

关于这个错误有很多疑问但它们只与一个变量相关 test h namespace World enum Objects TERRAIN 1 BOX 2 SPHERE 4 CAPSULE 8 void WorldObjects2 unsign
如何将 SQL 结果集限制为不太常见的项目

问题我有一份姓名和地址列表有些姓名人与其他姓名人具有相同的地址街道邮政编码城镇我想选择所有这些名称其地址出现次数不超过三次并从其余名称中选择前三个名称每个名称都指向同一地址例子 Albert Adr1 Berta
连续单子转变

在尝试为 ContT monad 转换器建立一些直觉时我也许并不奇怪发现自己很困惑问题在于 shiftT 操作似乎没有做任何有用的事情首先是一个如何使用它的简单示例 shiftT famr gt lift do a lt calc
按月分组获取数据集的百分位数

我有一个 SQL 表其中包含大量记录如下所示 Date Score 01 01 2010 4 02 01 2010 6 03 01 2010 10 16 03 2010 2 我将其绘制在图表上因此我在图表上画了一条漂亮的线表示随时间

按月分组获取数据集的百分位数

按月分组获取数据集的百分位数 的相关文章

随机推荐

热门标签

按月分组获取数据集的百分位数的相关文章