Seaborn 用直方图绘制分布图，其中 stat = 密度或概率？

2024-04-24

我知道，默认情况下，直方图方法是计算出现次数。相反，我们可以用密度或概率来可视化分布。

sns.displot(data, stat = 'density')

sns.displot(data, stat = 'probability')

我的问题是我应该使用哪些情况统计='密度' or 统计='概率' ?

stat = 'density'创建概率密度函数 (PDF) (维基百科 https://en.wikipedia.org/wiki/Probability_density_function).
正如 JohanC 在评论中提到的，PDF 的一个关键方面是曲线下的面积（或所有条形在一起）为 1。因此，条形宽度和条形高度都被考虑在内。

stat = 'probability'创建相同的条形（包括相同的宽度），但每个高度（y 轴值）直接说明该箱的概率。所有条形高度之和为 1。

使用哪一种取决于你想用情节“展示”什么以及观众是什么。

'probability'对于堆叠条形而言更直观且易于理解。
'density'更适合熟悉 PDF 的专家受众。

另外，由于 PDF 通常显示连续曲线'density' with displot并且 bins 更适合大量的 bins，而'probability' with displot也可以直观地工作，例如2 个垃圾箱。

Seaborn教程可视化数据分布 - 标准化直方图统计 https://seaborn.pydata.org/tutorial/distributions.html#normalized-histogram-statistics提供解释和示例图。
为了可视化该答案中的陈述，下面使用了减少的示例数据和图表以及不同的解释角度。

数据准备：（df 转换保持基本 - 具有# print以便于交叉检查）

import pandas as pd
import seaborn as sns


penguins = sns.load_dataset("penguins")
penguins_strip = penguins[['flipper_length_mm', 'sex']].dropna()
# print(penguins_strip)
print('Female and Male')
print(f'range: {penguins_strip["flipper_length_mm"].max() - penguins_strip["flipper_length_mm"].min()}')
print(f'len: {len(penguins_strip)}')

penguins_strip_male = penguins_strip[penguins_strip['sex'] == 'Male']
# print(penguins_strip_male)
print('Male only')
print(f'range: {penguins_strip_male["flipper_length_mm"].max() - penguins_strip_male["flipper_length_mm"].min()}')
print(f'len: {len(penguins_strip_male)}')

Female and Male
range: 59.0
len: 333

Male only
range: 53.0
len: 168

在顶部显示值的函数displot酒吧 - 很大程度上基于此特伦顿·麦金尼的回答 https://stackoverflow.com/a/68850867

def show_values(plot):
    for ax in plot.axes.ravel():
        # add annotations
        for c in ax.containers:
            # custom label calculates percent and add an empty string so 0 value bars don't have a number
            labels = [f'{w:0.5f}' if (w := v.get_height()) > 0 else '' for v in c]
            ax.bar_label(c, labels=labels, label_type='edge', fontsize=8, rotation=0, padding=2)
        ax.margins(y=0.2)

注意：由于显示的浮点数字有限，某些以下计算均四舍五入.

2 个垃圾箱，仅限“男性”脚蹼

默认显示图（无stat):

'probability'绘图 - 请注意每个 bin 总计为 1 的直观 y 轴概率。

'density'绘图 - 请参阅下面的面积计算

0.02156 * (53/2) = 0.57134
0.01617 * (53/2) = 0.428505
# see data preparation above, range is 53, and it's 2 bins

这两个面积相加为 1（四舍五入）。
你可以试试bins_nr = 1并轻松检查该区域。而对于'probability' with bins_nr = 1y 将仅为 1。

地块代码

bins_nr = 2

displot_default = sns.displot(penguins_strip_male, x="flipper_length_mm", hue="sex", 
                              bins=bins_nr, multiple="dodge")
show_values(displot_default)
    
displot_density = sns.displot(penguins_strip_male, x="flipper_length_mm", hue="sex", 
                              bins=bins_nr, multiple="dodge", stat = 'density')
show_values(displot_density)
        
displot_probability = sns.displot(penguins_strip_male, x="flipper_length_mm", hue="sex", 
                                  bins=bins_nr, multiple="dodge", stat = 'probability')
show_values(displot_probability)

堆积图示例（仅适用于'probability')

displot_probability_stacked = sns.displot(penguins_strip, x="flipper_length_mm", hue="sex", 
                                  bins=bins_nr, multiple="stack", stat = 'probability')
show_values(displot_probability_stacked)

插件：如果你想知道common_norm教程检查中的示例

displot_density = sns.displot(penguins_strip, x="flipper_length_mm", hue="sex", 
                              bins=bins_nr, multiple="dodge", stat = 'density')
show_values(displot_density)

displot_density_common = sns.displot(penguins_strip, x="flipper_length_mm", hue="sex", bins=bins_nr, 
                multiple="dodge", stat = 'density', common_norm=False)
show_values(displot_density_common)

并计算面积。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Seaborn 用直方图绘制分布图，其中 stat = 密度或概率？的相关文章

在 python 2 和 3 的spyder之间切换

根据我在文档中了解到的内容它指出您只需使用命令提示符创建一个新变量即可轻松在 2 个 python 环境之间切换如果我已经安装了 python 2 7 则 conda create n python34 python 3 4 anaco
如何用xlrd读取公式

我正在尝试做一个解析器它读取几个 Excel 文件我通常需要位于行底部的值您可以在其中找到所有上部元素的总和因此单元格值实际上是 sum 或 A5 0 5 可以说对于使用 Excel 打开此文件的用户来说它看起来像一个数字这
multiprocessing.freeze_support()

为什么多处理模块需要调用特定的function http docs python org dev library multiprocessing html multiprocessing freeze support在被冻结以生成 Wi
如何在 openpyxl 中设置或更改表格的默认高度

我想通过openpyxl更改表格高度并且我希望首先默认一个更大的高度值然后我可以设置自动换行以使我的表格更漂亮但我不知道如何更改默认高度唯一的到目前为止我知道更改表格高度的方法是设置 row dimension idx heigh
基于 True/False 值的 Python 优雅赋值

我想根据三个布尔值中的值设置一个变量最直接的方法是 if 语句后跟一系列 elif if a and b and c name first elif a and b and not c name second elif a and not
一起使用 Argparse 和 Json

我是 Python 初学者我想知道 Argparse 和 JSON 是否可以一起使用说我有变量p q r 我可以将它们添加到 argparse 中 parser add argument p param1 help x variabl
如何检查包含 NaN 的列表 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在我的 for 循环中我的代码生成一个如下所示的列表 list 0 0 0 0 sum 0 0 0 0 该循环生成所有其他数字向量但它也
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year
别碰我的女人

我讨厌的一件事迪斯图尔斯 http docs python org distutils 我猜他是邪恶的人他这样做了 https github com python cpython blob 300dd552b15825abfe0e367a
如何获取 Matplotlib 生成的散点图的像素坐标？

我使用 Matplotlib 生成散点图的 PNG 文件现在对于每个散点图除了 PNG 文件之外我还会also就像生成散点图中各个点的像素坐标列表一样我用来生成散点图 PNG 文件的代码基本上是这样的 from matplotli
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
python csv按列转换为字典

是否可以将 csv 文件中的数据读取到字典中使得列的第一行是键同一列的其余行构成列表的值例如我有一个 csv 文件 strings numbers colors string1 1 blue string2 2 red string
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
本地设置的 Cython 编译器指令是否影响一个或所有函数？

我正在努力使用 Cython 加速一些 Python Numpy 代码并且对本地设置如定义的here http docs cython org en latest src reference compilation html在文档中
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
字母尺度和随机文本上的马尔可夫链

我想使用 txt 文件中的一本书中的字母频率生成随机文本以便每个新字符 string lowercase 取决于前一个如何使用马尔可夫链来做到这一点或者使用每个字母都有条件频率的 27 个数组更简单我想使用来自的字母频率生成随机文本
获取运行云功能的运行时服务帐户

有没有办法以编程方式从云功能获取运行时服务帐户的电子邮件我知道我可以猜测默认的 App Engine 帐户因为它始终是 appspot gserviceaccount com 但这不是我想要的我本来期待有一些环境变量 https
Python 中的迭代器 (iter()) 函数。 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案对于字典我可以使用iter 用于迭代字典的键 y x 10 y 20 for val in iter y print val 当

随机推荐

create-react-app/express 代理错误：无法代理请求（ECONNRESET）

我使用 create react app 创建了一个 React 应用程序并使用express generator 创建了一个 Express 服务器我的反应应用程序正在运行http 本地主机 3000 http localhost 3
iText 设置加密错误

我最近不得不升级到 iText 但在让 setEncryption 工作时遇到问题我正在使用 iText 5 5 6 document new Document PageSize LETTER 36 36 72 72 writer Pdf
Servlet和路径参数如/xyz/{value}/test，如何在web.xml中映射？

servlet是否支持url如下 xyz value test 其中值可以用文本或数字替换如何在 web xml 中映射它最好的选择是 URL 模式 xyz The 服务程序接口 https jakarta ee specificati
使用 libgit2sharp 从分支中提取最新版本

我在 C 解决方案中使用 libgit2sharp 切换到分支并提取最新更改这是我正在使用的代码 public void FetchAll using var repo new Repository LocalGitPath foreac
AngularJS 嵌套指令中的双向数据绑定

如果您需要更多信息或希望我澄清任何事情请告诉我我尝试了很多不同的方法来解决这个问题但还没有找到解决方案我对 angularJS 比较陌生我正在尝试构建一个具有多层数据的应用程序我在控制器 PageController 的主体范围
如何使用 java.lang.Process 类向另一个进程提供输入

假设有一个程序从标准输入中获取输入例如 cin gt gt id 我想弄清楚的是如何执行该流程并向其标准输入提供一些输入获取过程的输出对我来说不是问题它工作正常问题是如何使用以下方法为此类流程提供输入 java lang Proce
Laravel 5.2 分割字符串名字姓氏

我有一个从全名表单传递的字符串在我的数据库中我存储名字和姓氏我使用以下方法分割了字符串 name explode request gt name lastname array pop name firstname implode na
将 InputStream 转换为固定长度字符串的 Stream

Like in 将 InputStream 转换为给定字符集的 Stream https stackoverflow com questions 30336257 convert inputstream into streamstring
将我的浏览器添加到 Android 的默认浏览器选择列表中？

遵循以下建议如何将我的浏览器添加到 Android 的默认浏览器选择列表中 https stackoverflow com questions 7394369 how to add my browser in the default bro
JPA EntityManager 是否有无状态版本？

休眠有一个会话的无状态版本 https docs jboss org hibernate orm 3 5 api org hibernate StatelessSession html JPA EntityManager 是否存在类似的东西
惰性记录器消息字符串评估

我在 python 应用程序中使用标准 python 日志记录模块 import logging logging basicConfig level logging INFO logger logging getLogger log whi
当 UIWebView 尝试阻塞锁定 Web 线程时，避免主线程冻结

所有 UIWebView 共享一个 Web 线程当其中之一是init ed 从超级视图等中删除它们将尝试以阻塞方式从主线程锁定 Web 线程从而暂时冻结主线程的运行循环如果网络线程繁忙例如在进行长同步时XMLHttpRequest
SQL - 是否有更好的方法将用于 where 子句的键列表传递到存储过程中？

这是场景我有一个清单客户ID 1 2 3 具有相关性OrderIds 我有一个存储过程Delete OrdersByCustomerIds 删除与该订单相关的所有订单客户ID指定的目前我这样做的方法是将客户ID转换为字符串即 1 2
Git 致命：参考格式无效：'refs/heads/master

我在用Dropbox同步git存储库但现在当我尝试push我收到错误 fatal Reference has invalid format refs heads master MacBook Pro s conflicted copy 2
如何从 Google Colab 笔记本运行“.py”文件中的 Python 脚本？

javascript IPython OutputArea prototype should scroll function lines return false run rl base py 我运行此错误提示 rl base py 文件
Cordova 通知插件安装失败（Cordova 3.6）

我已经将项目从 Cordova 3 4 更新到 3 6 3 但一切都崩溃了像往常一样但具体来说这里org apache cordova dialogs插件在 ios 上运行时无法工作 Cordova 表示插件已安装 cordova p
kotlin-stdlib-jre7 已弃用。请改用 kotlin-stdlib-jdk7

昨天我更新了Android Studio版本和Kotlin插件版本 Android Studio版本 3 1 2 Kotlin 版本 1 2 41 当我使用此配置创建 Android 项目时我收到 Kotlin 编译器警告 w home
访问被拒绝查找属性 ro.vendor.hwui.texture_cache_size

在启动活动时我收到此错误 Access denied finding property ro vendor hwui texture cache size 在 Android OREO 之前一切都工作正常但在 Android Pie 中却
如何在android中一次完成多个活动？

我的活动流程如下活动 A gt 活动 B gt 活动 C gt 活动 D 当用户位于活动 D 上并单击名为退出的按钮时应用程序应返回到活动 B 并完成活动 C 并D 我该怎么做注意活动 B 和活动 D 是相同的类但不同的实例
Seaborn 用直方图绘制分布图，其中 stat = 密度或概率？

我知道默认情况下直方图方法是计算出现次数相反我们可以用密度或概率来可视化分布 sns displot data stat density or sns displot data stat probability 我的问题是我应该使用

Seaborn 用直方图绘制分布图，其中 stat = 密度或概率？

Seaborn 用直方图绘制分布图，其中 stat = 密度或概率？ 的相关文章

随机推荐

热门标签

Seaborn 用直方图绘制分布图，其中 stat = 密度或概率？的相关文章