何时使用 numpy 与统计模块

2024-03-26

在使用一些统计分析工具时，我发现至少有 3 种 Python 方法可以计算平均值和标准差（不包括“自己动手”技术）：

np.mean(), np.std()（ddof=0 或 1）
statistics.mean(), statistics.pstdev()（和/或statistics.stdev)
scipy.statistics package

这让我摸不着头脑。应该有一种明显的方法可以做到这一点，对吗？:-) 我发现了一些较旧的帖子。一、性能优势对比np.mean() vs statistics.mean()。它还强调了求和运算符的差异。那篇文章在这里：为什么统计数据这么慢 https://stackoverflow.com/questions/37533666

我正在与numpy数组数据，并且我的值落在一个小范围内（-1.0到1.0，或0.0到10.0），所以numpy函数似乎是我的应用程序的明显答案。对于我将要处理的数据，它们在速度、准确性和易于实施性方面取得了良好的平衡。

看来statistics模块主要适用于那些具有列表（或其他形式）数据或广泛变化范围的数据的模块[1e+5, 1.0, 1e-5]。这仍然是一个公平的说法吗？有没有numpy解决求和运算符差异的增强功能？最近的发展是否带来了其他优势？

数值算法通常有积极和消极的方面：有些更快，或更准确，或者需要更小的内存占用。当面临 3-4 种计算方法的选择时，开发人员的责任是为他/她的应用程序选择“最佳”方法。一般来说，这是竞争优先级和资源之间的平衡行为。

我的目的是征求具有统计分析经验的程序员的回复，以深入了解上述方法（或其他/更好的方法）的优点和缺点。 [我对没有事实支持的猜测或观点不感兴趣。] 我会根据我的设计需求自己做出决定。

为什么 NumPy 重复 SciPy 的功能？

来自 SciPy 常见问题解答NumPy 和 SciPy 有什么区别？ https://www.scipy.org/scipylib/faq.html#what-is-the-difference-between-numpy-and-scipy:

在理想的情况下，NumPy 除了数组数据类型和最基本的操作之外什么都不包含：索引、排序、整形、基本元素函数等。所有数字代码都将驻留在 SciPy 中。然而，NumPy 的重要目标之一是兼容性，因此 NumPy 尝试保留其前身支持的所有功能。

它建议使用 SciPy 而不是 NumPy：

无论如何，SciPy 包含功能更齐全的线性代数模块版本，以及许多其他数值算法。如果您使用 Python 进行科学计算，您可能应该同时安装 NumPy 和 SciPy。大多数新功能属于 SciPy 而不是 NumPy。

我什么时候应该使用统计库？

来自统计库文档 https://docs.python.org/3/library/statistics.html:

该模块无意成为第三方库（例如 NumPy、SciPy）或针对专业统计学家（例如 Minitab、SAS 和 Matlab）的专有全功能统计包的竞争对手。它针对的是图形和科学计算器的水平。

因此，我不会将它用于严肃的（即资源密集型）计算。

statsmodels 和 SciPy 之间有什么区别？

来自统计模型关于页面 https://www.statsmodels.org/stable/about.html:

scipy.stats 的 models 模块最初由 Jonathan Taylor 编写。有一段时间它是 scipy 的一部分，但后来被删除。在 Google Summer of Code 2009 期间，statsmodels 得到了纠正、测试、改进并作为新包发布。此后，statsmodels 开发团队不断添加新模型、绘图工具和统计方法。

因此，您可能有 SciPy 无法满足的要求，或者专用库可以更好地满足您的要求。例如 SciPy 文档scipy.stats.probplot https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.probplot.html注意到

Statsmodels 具有更广泛的此类功能，请参阅statsmodels.api.ProbPlot.

因此，在这种情况下，您将需要求助于 SciPy 之外的统计库。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

何时使用 numpy 与统计模块的相关文章

Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
来自多元 t 分布的样本 python

我想知道Python中是否有一个从多元学生t分布中采样的函数我有包含 14 个元素的均值向量 14x14 协方差矩阵和自由度我想从这个 t 分布中采样一个向量对于一维情况我使用 stats t rvs df loc scale 并且
在Python中整齐地绘制PMF

有没有一个库可以帮助我在 python 中整齐地绘制样本的概率质量函数如下所示通过matplotlib pyplot的stem模块 matplotlib pyplot stem args kwargs from matplotlib p
“DATETIME_INPUT_FORMATS”在 Django Admin 中不起作用，而“DATE_INPUT_FORMATS”和“TIME_INPUT_FORMATS”则可以

I use 日期时间字段 https docs djangoproject com en 4 2 ref models fields datetimefield 日期字段 https docs djangoproject com en 4
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
在 Python 中通过网络发送对象的最佳方式是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要通过网络发送对象我将使用 Twisted 并且我刚刚开始查看它的文档据我所知 python实现套接字的唯一方式是通过文本那么我如何使
__author__ 的起源是什么？

使用私有元数据变量的约定在哪里 author 一个模块内部从何而来 This http mail python org pipermail python dev 2001 March 013328 htmlPython 邮件列表线程似乎暗示
Python-使用元组作为列表索引[重复]

这个问题在这里已经有答案了我有一个元组列表 tuples list 1 0 2 3 3 2 2 0 我想访问二维数组的元素a例如使用其中一些元组 for i in range 3 print a tuples list i 应该输出的值
Django - 渲染到字符串无法加载 CSS

我正在尝试使用 Django 1 8 render to string 通过管理命令将 html 转换为 pdf 而不是使用 View request 以下代码可以将模板转换为 pdf 但它无法将 CSS 加载到模板中 def html t
使用 Python 获取 Youtube 数据

我正在尝试学习如何分析网络上可用的社交媒体数据我从 Youtube 开始 from apiclient errors import HttpError from outh2client tools import argparser fro
如何从 PyObject 获取指向字符串的 char*

我怎样才能得到一个char from a PyObject它指向一个字符串例如这是 python 脚本 Test Connect 272 22 20 65 1234 这是 C 代码 static PyObject Connect PyO
Python struct.pack() 'struct.error: bad char in struct format' 尝试保存字节顺序时

我正在尝试打包一个字符串和字符串的长度 fmt
内置模块位于哪里？

我尝试查找列出的所有目录sys path但我找不到任何builtins py文件那么它在哪里呢从字面上看该模块内置于 python 解释器中 gt gt gt import builtins gt gt gt builtins
类unix系统中的python和python3命令有什么区别？

我通读了每个命令的描述但每个命令的描述都是完全相同的所以我不明白这两个命令在类 Unix 系统中的工作方式有何不同谁能解释其中的区别吗 Python3命令的引入是因为python命令指向了python2 从那时起 Python3 已成
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的

随机推荐

Django 多列唯一约束批量插入

假设我们有一个模型 from django db import models class Concept models Model a models CharField max length 255 b models CharField m
应该以什么顺序向绝对初学者解释 Python 概念？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
通过移动网络的 HTTP/2 浏览器请求一次往返有多少字节？

我正在开发一个网站目标是尽可能快这个目标需要让移动客户端发出初始 HTTP 请求one往返 HTTP 2 的 HPACK 应该处理同一页面的后续请求传统观点认为 14 KB 的压缩文件response与您对网页第一次往返的预期一样多
了解涉及用户定义转换的重载解析排名

我试图理解过载解析首先让我们考虑第一种情况 struct int1 int val operator int return val operator const int const return val void f int f 1 vo
我可以在 onExit 中停止到下一个状态的转换吗？

我有两个状态 A和B 当我通过单击关闭按钮退出状态 A 时我使用 state go 转换到屏幕 A 到状态 B 屏幕 B 当我通过单击屏幕 A 上的后退浏览器按钮退出状态 A 时随着浏览器 URL 的更改我会转换到状态 B 屏幕 B
Concourse 将文件添加到 docker 镜像一次

我正在使用 concourse 作为我们的构建系统 Concourse 会缓存 docker 镜像这样我们就不需要在后续运行中每次都经历下载过程我想将一个二进制文件添加到将从互联网提取的 docker 映像中但我只想在第一次由 con
以编程方式向表情符号添加肤色修改器

我在向应用程序中的表情符号添加肤色修改器时遇到一些问题例如如果我使用 let text 打印出来了但是对于其他表情符号则不起作用例如 let text 打印向表情符号添加肤色修改器的正确方法是什么仅当前面的字符是纯表情符号字符
命名空间“UnityEngine”中不存在类型或命名空间名称“UI”

我正在为初学者做一个小课程Unity 3D here https learn unity com project john lemon s haunted jaunt 3d beginner 从统一资产商店导入所有资产后如课程中所述我收
Azure 逻辑应用程序，解析 JSON，但可能为 null

我想根据以下类解析 json public class DerModel public string Name get set public string Email get set public class DriverPositiveR
通过单击行获取 HTML 表格单元格值

如何获取 HTML 表格中的 TD 值 i e ID cell 1 cell 2 1 aaaa a2a2a2 2 bbbb b2b2b2 3 cccc c2c2c2 所以现在如果我单击单元格值 bbbb 我想获取所选行的所有值 id 2 c
SFINAE 模板专业化优先级

include
在 Bootstrap 3 模式中使用 jQuery DatePicker

我想用jQuery UI 日期选择器在模态中真正的问题是如果我还想显示年份和月份它会显示空选择使用firebug 选项标签似乎位于模态下这是我的 HTML div class modal dialog div class moda
iPhone UIActionSheet 自动旋转不起作用

我读了很多相关内容人们说当其父级未设置为自动旋转时它不会自动旋转我尝试了一切但没有运气我创建了基于视图的应用程序 v4 2 并带有一个执行此操作的按钮 UIActionSheet actionSheet UIActionSheet
使用 BeautifulSoup 和 Requests 抓取多个分页链接

Python 初学者在这里我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品但在迭代所有分页链接时遇到
如何从 TreeExplainer 获取 shap_values 的特征名称？

我正在做一个 shap 教程并尝试获取数据集中每个人的 shap 值 from sklearn model selection import train test split import xgboost import shap impo
Hadoop 2.2.0 配置弃用

我设置了 Hadoop 2 2 0 集群现在运行我的 java 客户端来处理数据运行我的 java 程序后我注意到输出显示如下 13 11 18 11 44 44 INFO Configuration deprecation user
理解“排序！”块

现在我有一个数组 letter a b c a b c a b b 有人可以解释一下以下返回值吗 letter sort x letter count x gt b b a c c a b b a 当你定义一个sort or sort 阻止
如何自定义 Flask admin QuerySelectMultipleField 选择？

我在用flask admin允许管理员用户访问数据库其中呈现一对多关系编辑条目时我希望下拉菜单仅显示满足条件的选项我虽然query factory可以做到这一点以下是我现在拥有的最小示例 class OneSideObj db M
如何在L2E或EF中使用外键？

我有一个User表有一个PrivilegeId外键指向aPrivilege表并且是那里的主键在Entity Framework中 VS不会生成PrivilegeId下的变量User为你它将生成一个Privilege财产和Privile
何时使用 numpy 与统计模块

在使用一些统计分析工具时我发现至少有 3 种 Python 方法可以计算平均值和标准差不包括自己动手技术 np mean np std ddof 0 或 1 statistics mean statistics pstdev 和或

何时使用 numpy 与统计模块

何时使用 numpy 与统计模块 的相关文章

随机推荐

热门标签

何时使用 numpy 与统计模块的相关文章