使用 NumPy 数组执行分组平均值和标准差

2024-05-07

我有一组数据（X，Y）。我的自变量值 X 不是唯一的，因此有多个重复值，我想输出一个新数组，其中包含： X_unique，它是 X 的唯一值的列表。 Y_mean，与 X_unique 对应的所有 Y 值的平均值。 Y_std，X_unique对应的所有Y值的标准差。

x = data[:,0]
y = data[:,1]

您可以使用binned_statistic来自 scipy.stats http://scipy.github.io/devdocs/generated/scipy.stats.binned_statistic.html支持将各种统计函数应用于一维数组的块中。为了获取块，我们需要排序并获取移位的位置（块发生变化的位置），其中np.unique http://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.unique.html会有用的。把所有这些，这是一个实现 -

from scipy.stats import binned_statistic as bstat

# Sort data corresponding to argsort of first column
sdata = data[data[:,0].argsort()]

# Unique col-1 elements and positions of breaks (elements are not identical)
unq_x,breaks = np.unique(sdata[:,0],return_index=True)
breaks = np.append(breaks,data.shape[0])

# Use binned statistic to get grouped average and std deviation values
idx_range = np.arange(data.shape[0])
avg_y,_,_ = bstat(x=idx_range, values=sdata[:,1], statistic='mean', bins=breaks)
std_y,_,_ = bstat(x=idx_range, values=sdata[:,1], statistic='std', bins=breaks)

从文档binned_statistic，还可以使用自定义统计函数：

function ：用户定义的函数，它采用一维值数组，并输出单个数值统计数据。该函数将被调用每个 bin 中的值。空垃圾箱将表示为 function([])，如果返回错误则为 NaN。

样本输入、输出 -

In [121]: data
Out[121]: 
array([[2, 5],
       [2, 2],
       [1, 5],
       [3, 8],
       [0, 8],
       [6, 7],
       [8, 1],
       [2, 5],
       [6, 8],
       [1, 8]])

In [122]: np.column_stack((unq_x,avg_y,std_y))
Out[122]: 
array([[ 0.        ,  8.        ,  0.        ],
       [ 1.        ,  6.5       ,  1.5       ],
       [ 2.        ,  4.        ,  1.41421356],
       [ 3.        ,  8.        ,  0.        ],
       [ 6.        ,  7.5       ,  0.5       ],
       [ 8.        ,  1.        ,  0.        ]])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NumPy 数组执行分组平均值和标准差的相关文章

通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
如何循环遍历对象数组并生成键值对？

我有一个像这样的对象数组 let someObj items id 12 value true id 34 value true id 56 value false 我想将其添加到现有对象中其中 id 是该对象的键如下所示 let ob
Redim Preserve 给出“下标超出范围”

我想要Redim Preserve一个数组我不断收到错误下标超出范围我知道只有最后一个维度的大小可以更改这正是我正在做的事情这里出了什么问题数组的类型是Variant BmMatrix Sheets BENCH Range a60
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
Swift 使用哪种通用排序算法？它在排序数据上表现不佳

我一直在挑选和探索 Swift 标准库sort 其函数为Array类型令我惊讶的是我注意到它在已经排序的数据上表现不佳对数组进行排序Int打乱顺序似乎比对已经排序的同一个数组进行排序快 5 倍对已打乱顺序的对象数组进行排序比对已按排
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
jQuery / Ajax：如何循环遍历数组作为 Ajax 成功函数的一部分

我有一个阿贾克斯调用返回一个数组并需要对该数组中的每个值执行某些操作到目前为止我有以下内容但这会返回以下错误 Uncaught TypeError Cannot use in operator to search for length
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
PHP条件，如果当前页面，则链接突出显示[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我有一个带
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

R模糊字符串匹配根据匹配的字符串返回特定列

我有两个大型数据集一个大约有 50 万条记录另一个大约有 7 万条记录这些数据集有地址我想匹配较小数据集中的任何地址是否存在于大数据集中正如您所想象的那样地址可以用不同的方式和不同的情况拼写等来书写此外如果只写到建筑物级别
Swift 2.0 中的 countForFetchRequest

我正在尝试使用countForFetchRequestSwift 2 0 中托管对象上下文上的方法我注意到错误处理executeFetchRequest已更改为新的do try catch syntax func executeFetch
Xcode 4 上的 Boost 库静态链接

我在 OS X 上使用 Xcode 使用 Boost 库 Boost 使用 macports 安装在我的系统上通过将我需要的 3 个 boost 库例如 libboost thread mt a 添加到 Targets Link Bin
将 CSS 框阴影转换为 iOS 阴影

有谁知道我如何转换box shadowObjective C 中 UIButton 上的阴影例如这个阴影 box shadow 2px 0 0 0 46d466 2px 0 0 0 46d466 0 2px 4px 0 rgba 0 0
如何在 C# 中从工作线程发布 UI 消息

我正在用 C 编写一个简单的 winforms 应用程序我创建了一个工作线程我希望主窗口响应线程完成其工作只需更改文本字段中的一些文本 testField Text Ready 我尝试了事件和回调但它们都在调用线程的上下文中执行并
是否可以防止出现文件对话框？为什么？

假设我有输入类型文件元素我想拦截 onclick 事件并防止在不满足条件时出现文件对话框是否可以如果不是的话为什么 Soufiane 的代码要求您的页面上有一个名为 jQuery 的 Javascript 库如果您没有您可
从 Windows 批处理文件中检测 ANSI 兼容控制台？

Windows 10 控制台主机 conhost exe has 对 ANSI 转义序列的本机支持 https msdn microsoft com en us library windows desktop mt638032 aspx 旧
获取ADO.NET中的参数前缀

我想使用列名作为参数基于列列表生成多个 SQL 语句 Edit C var columns new string COL1 COL2 var tableName TABLE 1 var prefix TODO get this from t
asp.net web api 中具有两个参数的方法

如何使用 ASP NET Web Api 创建具有两个参数的方法这样我就可以像 localhost controller param1 param2 那样调用它您还可以在查询字符串中使用特定参数名称来调用 url api actions
设置数据漫游开/关

如何在 Android 应用程序中以编程方式设置数据漫游开关提前为重新打开一个死帖子表示歉意但我已经通过调用此可执行文件成功实现了它 su c settings put global data roaming0 1 另外要获取第一张
S3 Java 客户端经常失败，并出现“内容长度分隔消息正文过早结束”或“java.net.SocketException 套接字已关闭”

我有一个在 S3 上做很多工作的应用程序主要是从中下载文件我看到很多此类错误我想知道这是否是我的代码中的问题或者服务是否真的像这样不可靠我用来从 S3 对象流读取的代码如下 public static final void wri
如何声明朋友聚会？

我的解决方案中有 2 个项目装配基础库测试组件 NUnit 我已将测试程序集声明为第一个项目中的朋友程序集 assembly InternalsVisibleTo Company Product Tests 一切都工作正常直到我意识
在 Tensorflow 2.0 中的 tf.function input_signature 中使用字典

我正在使用 Tensorflow 2 0 并面临以下情况 tf function def my fn items do stuff return 如果 items 是张量的字典例如 item1 tf zeros 1 1 item2 tf
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
选择性罐包装

我有一个小program jar 它使用了巨大的library jar 的一小部分有没有一种工具可以将多个 jar 重新打包成一个以便它可以独立运行并且尽可能小 Update 大小事项有proguard http proguard s
复制具有所有关系的 Doctrine 对象

我想复印一份他所有亲戚的记录我正在尝试 o Doctrine getTable Table gt Find x copy object gt copy relations o gt getRelations foreach relatio
Kubernetes - 服务之间的通信

我目前正在开发 kubernetes 集群集群工作正常我需要在不使用代理的情况下建立服务之间的通信例如我有以下服务 worker app1 app2 app3 Worker 需要直接通过 SSH 登录应用程序容器并执行一些命令在 d
我知道 scipy curve_fit 可以做得更好

我使用 python numpy scipy 来实现此算法用于根据地形坡向和坡度对齐两个数字高程模型 DEM 用于量化冰川厚度变化的卫星高程数据集的联合配准和偏差校正 C Nuth 和 A K b doi 10 5194 tc 5 271
通过交叉引用过滤库存

我想通过交叉引用以及其他属性来自定义库存过滤我为这样的库存项目添加了另外两个交叉引用项目现在我想通过替代类型的替代 Id 值以任何其他形式自定义库存过滤器谢谢你没有简单的方法可以在不进行自定义的情况下在库存商品的备用 ID 上添加搜
使用 NumPy 数组执行分组平均值和标准差

我有一组数据 X Y 我的自变量值 X 不是唯一的因此有多个重复值我想输出一个新数组其中包含 X unique 它是 X 的唯一值的列表 Y mean 与 X unique 对应的所有 Y 值的平均值 Y std X unique对应

使用 NumPy 数组执行分组平均值和标准差

使用 NumPy 数组执行分组平均值和标准差 的相关文章

随机推荐

热门标签

使用 NumPy 数组执行分组平均值和标准差的相关文章