pandas 和 numpy 的平均值不同

2024-03-29

我有一个 MEMS IMU，我一直在其上收集数据，并使用 pandas 从中获取一些统计数据。每个周期收集 6 个 32 位浮点数。对于给定的收集运行，数据速率是固定的。数据速率在 100Hz 到 1000Hz 之间变化，收集时间长达 72 小时。数据保存在平面二进制文件中。我这样读取数据：

import numpy as np
import pandas as pd
dataType=np.dtype([('a','<f4'),('b','<f4'),('c','<f4'),('d','<f4'),('e','<f4'),('e','<f4')])
df=pd.DataFrame(np.fromfile('FILENAME',dataType))
df['c'].mean()
-9.880581855773926
x=df['c'].values
x.mean()
-9.8332081

-9.833 是正确的结果。我可以创建一个类似的结果，有人应该能够以这种方式重复：

import numpy as np
import pandas as pd
x=np.random.normal(-9.8,.05,size=900000)
df=pd.DataFrame(x,dtype='float32',columns=['x'])
df['x'].mean()
-9.859579086303711
x.mean()
-9.8000648778888628

我在 Linux 和 Windows、AMD 和 Intel 处理器、Python 2.7 和 3.5 中重复了这一点。我很困惑。我究竟做错了什么？并得到这个：

x=np.random.normal(-9.,.005,size=900000)
df=pd.DataFrame(x,dtype='float32',columns=['x'])
df['x'].mean()
-8.999998092651367
x.mean()
-9.0000075889406528

我可以接受这个差异。它达到了 32 位浮点精度的极限。

没关系。我周五写了这篇文章，今天早上我想到了解决方案。这是一个因大量数据而加剧的浮点精度问题。我需要在创建数据帧时将数据转换为 64 位浮点数，如下所示：

df=pd.DataFrame(np.fromfile('FILENAME',dataType),dtype='float64')

如果其他人遇到类似的问题，我将离开该帖子。

简洁版本：

之所以不同是因为pandas uses bottleneck（如果已安装）调用时mean操作，而不是仅仅依靠numpy. bottleneck大概被使用，因为它看起来比numpy（至少在我的机器上），但以精度为代价。它们恰好与 64 位版本匹配，但在 32 位版本中有所不同（这是有趣的部分）。

长版：

仅通过检查这些模块的源代码很难判断发生了什么（它们非常复杂，即使对于像这样的简单计算也是如此）mean，事实证明数值计算很困难）。最好使用调试器来避免大脑编译和此类错误。调试器不会犯逻辑错误，它会告诉你exactly这是怎么回事。

这是我的一些堆栈跟踪（由于没有 RNG 种子，值略有不同）：

可以重现（Windows）：

>>> import numpy as np; import pandas as pd
>>> x=np.random.normal(-9.,.005,size=900000)
>>> df=pd.DataFrame(x,dtype='float32',columns=['x'])
>>> df['x'].mean()
-9.0
>>> x.mean()
-9.0000037501099754
>>> x.astype(np.float32).mean()
-9.0000029

没有什么特别的事情发生numpy的版本。这是pandas版本有点古怪。

让我们看看里面df['x'].mean():

>>> def test_it_2():
...   import pdb; pdb.set_trace()
...   df['x'].mean()
>>> test_it_2()
... # Some stepping/poking around that isn't important
(Pdb) l
2307
2308            if we have an ndarray as a value, then simply perform the operation,
2309            otherwise delegate to the object
2310
2311            """
2312 ->         delegate = self._values
2313            if isinstance(delegate, np.ndarray):
2314                # Validate that 'axis' is consistent with Series's single axis.
2315                self._get_axis_number(axis)
2316                if numeric_only:
2317                    raise NotImplementedError('Series.{0} does not implement '
(Pdb) delegate.dtype
dtype('float32')
(Pdb) l
2315                self._get_axis_number(axis)
2316                if numeric_only:
2317                    raise NotImplementedError('Series.{0} does not implement '
2318                                              'numeric_only.'.format(name))
2319                with np.errstate(all='ignore'):
2320 ->                 return op(delegate, skipna=skipna, **kwds)
2321
2322            return delegate._reduce(op=op, name=name, axis=axis, skipna=skipna,
2323                                    numeric_only=numeric_only,
2324                                    filter_type=filter_type, **kwds)

所以我们找到了问题所在，但现在事情变得有点奇怪：

(Pdb) op
<function nanmean at 0x000002CD8ACD4488>
(Pdb) op(delegate)
-9.0
(Pdb) delegate_64 = delegate.astype(np.float64)
(Pdb) op(delegate_64)
-9.000003749978807
(Pdb) delegate.mean()
-9.0000029
(Pdb) delegate_64.mean()
-9.0000037499788075
(Pdb) np.nanmean(delegate, dtype=np.float64)
-9.0000037499788075
(Pdb) np.nanmean(delegate, dtype=np.float32)
-9.0000029

注意delegate.mean() and np.nanmean output -9.0000029与类型float32, not -9.0 as pandas nanmean做。经过一番探索，您可以找到源代码pandas nanmean in pandas.core.nanops。有趣的是，它实际上看起来像这样should匹配numpy首先。我们来看看pandas nanmean:

(Pdb) import inspect
(Pdb) src = inspect.getsource(op).split("\n")
(Pdb) for line in src: print(line)
@disallow('M8')
@bottleneck_switch()
def nanmean(values, axis=None, skipna=True):
    values, mask, dtype, dtype_max = _get_values(values, skipna, 0)

    dtype_sum = dtype_max
    dtype_count = np.float64
    if is_integer_dtype(dtype) or is_timedelta64_dtype(dtype):
        dtype_sum = np.float64
    elif is_float_dtype(dtype):
        dtype_sum = dtype
        dtype_count = dtype
    count = _get_counts(mask, axis, dtype=dtype_count)
    the_sum = _ensure_numeric(values.sum(axis, dtype=dtype_sum))

    if axis is not None and getattr(the_sum, 'ndim', False):
        the_mean = the_sum / count
        ct_mask = count == 0
        if ct_mask.any():
            the_mean[ct_mask] = np.nan
    else:
        the_mean = the_sum / count if count > 0 else np.nan

    return _wrap_results(the_mean, dtype)

这是一个（简短的）版本bottleneck_switch装饰器：

import bottleneck as bn
...
class bottleneck_switch(object):

    def __init__(self, **kwargs):
        self.kwargs = kwargs

    def __call__(self, alt):
        bn_name = alt.__name__

        try:
            bn_func = getattr(bn, bn_name)
        except (AttributeError, NameError):  # pragma: no cover
            bn_func = None
    ...

                if (_USE_BOTTLENECK and skipna and
                        _bn_ok_dtype(values.dtype, bn_name)):
                    result = bn_func(values, axis=axis, **kwds)

这被称为alt as the pandas nanmean函数，所以bn_name is 'nanmean'，这是从中获取的 attrbottleneck module:

(Pdb) l
 93                             result = np.empty(result_shape)
 94                             result.fill(0)
 95                             return result
 96
 97                     if (_USE_BOTTLENECK and skipna and
 98  ->                         _bn_ok_dtype(values.dtype, bn_name)):
 99                         result = bn_func(values, axis=axis, **kwds)
100
101                         # prefer to treat inf/-inf as NA, but must compute the fun
102                         # twice :(
103                         if _has_infs(result):
(Pdb) n
> d:\anaconda3\lib\site-packages\pandas\core\nanops.py(99)f()
-> result = bn_func(values, axis=axis, **kwds)
(Pdb) alt
<function nanmean at 0x000001D2C8C04378>
(Pdb) alt.__name__
'nanmean'
(Pdb) bn_func
<built-in function nanmean>
(Pdb) bn_name
'nanmean'
(Pdb) bn_func(values, axis=axis, **kwds)
-9.0

假装那样bottleneck_switch()装饰器一秒钟都不存在。我们实际上可以看到手动调用该函数（无需bottleneck）会给你相同的结果numpy:

(Pdb) from pandas.core.nanops import _get_counts
(Pdb) from pandas.core.nanops import _get_values
(Pdb) from pandas.core.nanops import _ensure_numeric
(Pdb) values, mask, dtype, dtype_max = _get_values(delegate, skipna=skipna)
(Pdb) count = _get_counts(mask, axis=None, dtype=dtype)
(Pdb) count
900000.0
(Pdb) values.sum(axis=None, dtype=dtype) / count
-9.0000029

不过，如果你有的话，那永远不会被调用bottleneck安装。相反，bottleneck_switch()装饰器反而会爆炸nanmean功能与bottleneck的版本。这就是差异所在（有趣的是，它与float64不过，情况）：

(Pdb) import bottleneck as bn
(Pdb) bn.nanmean(delegate)
-9.0
(Pdb) bn.nanmean(delegate.astype(np.float64))
-9.000003749978807

bottleneck据我所知，仅用于速度。我假设他们正在采取某种捷径nanmean函数，但我没有深入研究它（有关此主题的详细信息，请参阅@ead 的答案）。您可以看到它通常比numpy根据他们的基准：https://github.com/kwgoodman/bottleneck https://github.com/kwgoodman/bottleneck。显然，为这种速度付出的代价是精度。

瓶颈实际上更快吗？

当然看起来像这样（至少在我的机器上）。

In [1]: import numpy as np; import pandas as pd

In [2]: x=np.random.normal(-9.8,.05,size=900000)

In [3]: y_32 = x.astype(np.float32)

In [13]: %timeit np.nanmean(y_32)
100 loops, best of 3: 5.72 ms per loop

In [14]: %timeit bn.nanmean(y_32)
1000 loops, best of 3: 854 µs per loop

这可能对pandas在这里引入一个标志（一个用于速度，另一个用于更好的精度，默认值是速度，因为这是当前的实现）。一些用户更关心计算的准确性而不是计算发生的速度。

HTH.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas 和 numpy 的平均值不同的相关文章

如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
django 中的身份验证方法返回 None

你好我在 django 中做了一个简单的注册和登录页面当想要登录时登录视图中的身份验证方法不返回任何内容我的身份验证应用程序模型 py from django db import models from django contri
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
更改用作函数全局作用域的字典

我想做一个 purePython 的装饰器其中一部分是能够有选择地禁止访问函数的全局范围有没有一种方法可以以编程方式更改哪个字典事物充当函数的全局外部作用域因此例如在下面我希望能够拦截对f in h并抛出错误但我想允许访问g因为
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
重定向 python 交互式帮助()

我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助我的 python 代码中有这个 class OutputCatcher def init self self data def wr
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
在 python 中使用高精度时间戳

嘿我正在使用 python 处理日期时间我想知道解析这个时间戳的最佳方法是什么时间戳是ISO标准这里是一个例子 2010 06 19T08 17 14 078685237Z 现在到目前为止我已经使用过 time datetime d
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

将 Shapes.Path 项目绑定到 ItemsControl

我一直在试图弄清楚如何绑定ObservableCollection
超越比较忽略所有文件中不重要的差异

我正在使用Beyond Compare 3 3 4 我想比较大量文件并忽略不重要的差异 In Session gt Session Settings gt Comparison tab 需要打开文件部分有一个比较内容基于规则的比较当
IE 11 中的 VueJS - 的模板包装器不工作，但在 Edge 和 Chrome 中工作

这是在 IE 11 中使用 Vue 2 5 16 假设datasetapp data 中的数组以下内容在 Chrome 中运行良好并且代码已简化 tbody tbody
如何在 iOS 应用程序中创建自定义委托

在 iPhone 中每个 UIContrrol 都有预定义的委托方法但是我们如何创建自己的自定义委托方法在你的头文件中之前 interface insert protocol YourDelegate
按数组中的多个属性对对象进行分组，然后对它们的值求和

按多个属性对数组中的元素进行分组 https codereview stackexchange com questions 37028 grouping elements in array by multiple properties是与我
React-Native-Table-Component 冻结可滚动表中的第一列和第一行

期望状态我正在使用react native table component 这是一个在 React Native 中渲染表格的基本组件我需要冻结表中的第一列和第一行以便滚动时它们保持在视图中具体来说我需要在水平滚动时第一列保持固定
gradle 1.10 内部 Maven 存储库在 intellij 13 中永远索引

我有两个项目一个 Maven 和一个 Gradle 该公司还有一个内部 Maven 存储库我正在尝试设置 Gradle 以使用内部存储库使用 Intellij 13 当我将像这样的存储库添加到 build gradle 中的 Grad
Maven 依赖项：树未显示所有传递依赖项

我无法理解该人的行为依赖树输出当在更高的模块上运行插件时我丢失了它所依赖的模块的重要信息但是当我在较低的模块上运行插件时我可以看到依赖项这是一个显示问题的示例名称已更改 mvn pl foo bar application d
非 Windows 世界中的 COM？

希望这个问题不会太含糊通读 COM 规范和 Don Box 的 Essential COM 书有很多关于 COM 解决的问题的讨论它们听起来都很重要相关且重要 current https stackoverflow com que
React 组件未渲染到index.html

我真的是 ReactJS 的初学者组件没有渲染我浪费了很多时间来搜索但没有成功我正在跟进从这个系列我已经从这里配置了 webpack dev serverlink https stackoverflow com questions
动画不适用于 ::-webkit-slider-thumb

我为 input type range 元素创建了一些自定义样式我创建了以下动画 webkit keyframes balla from transform rotate 0 to transform rotate 360deg 我适用于
通过nodejs、njs脚本语言扩展nginx

我找到了您可以使用的 nginx 文档部分 ECMAScript 5 1 严格模式以及一些 ECMAScript 6 和更高版本的扩展扩展 nginx 作为用例在请求到达上游服务器之前 njs 中进行复杂的访问控制和安全检查 http
关于Java Cassandra Client，哪一个更好？ CQL 怎么样？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试使用 Hive 作为数据库来开发应用程序然后我还找到了 noSQL 解决方案作为它的替代方案现在决定使用 Cassand
Notepad++改变文字颜色？

我正在使用 Notepad 来模拟 ISPF 屏幕我使用 StyleConfigurator 选择合适的字体将其着色为绿色并设置黑色背景如何永久更改所选文本的颜色例如如果我的客户名称 THALECRESS 如何将客户名称蓝色
在 opentok ios sdk 中，呼叫者没有从接收者那里收到结束呼叫事件

我有一个 iPhone 应用程序我需要在其中管理从呼叫者到接收者的视频通话并且它通过使用 Opentok 框架完美地工作视频通话和音频一切正常但我在从接收方结束呼叫而不接听电话时遇到问题如果接收者接听电话然后结束通话则呼叫者会收
如何批量获取DynamoDB中的索引表？

如何在DynamoDB中批量获取全局二级索引这些参数给了我一个架构错误因为这个哈希键仅在索引表中主键有其他 const params RequestItems MyTableName Keys ThisHashKeyIsOnlyInI
ARM 汇编 SOS 中的 64 位除法

我正在计算 16 个 64 位数字相加的平均值我认为我已经正确完成了所有加法但现在我需要弄清楚如何将 64 位数字除以 16 但我被困住了任何帮助都会非常感谢你到目前为止这是我的代码 tableSize EQU 16 sum EQ
破折号是 R 正则表达式中的特殊字符吗？

尽管阅读了R 正则表达式的帮助页面 http stat ethz ch R manual R devel library base html regex html 最后要包含文字请将其放在第一个或最后一个或者对于 perl 仅 TR
AutoPostback 与 TextBox 失去焦点

A TextBox被设定为AutoPostback因为更改值会导致重新计算和显示许多仅显示字段效果很好但是当该字段被跳出时焦点会短暂移动到下一个字段然后在重新绘制页面时消失因此任何地方都没有焦点我希望焦点集中在新字段上而
pandas 和 numpy 的平均值不同

我有一个 MEMS IMU 我一直在其上收集数据并使用 pandas 从中获取一些统计数据每个周期收集 6 个 32 位浮点数对于给定的收集运行数据速率是固定的数据速率在 100Hz 到 1000Hz 之间变化收集时间长达 72

pandas 和 numpy 的平均值不同

简洁版本：

长版：

pandas 和 numpy 的平均值不同 的相关文章

随机推荐

热门标签

pandas 和 numpy 的平均值不同的相关文章