Pandas.DataFrame interpolate() 方法='线性'和'最近'返回尾随 NaN 不一致的结果

2024-04-26

我在探索pandas.DataFrame.interpolate()用不同的方法，linear vs. nearest，当尾部缺少数据时，我发现这两种方法的输出不同。

例如：

import pandas as pd # version: '0.16.2' or '0.20.3'
>>> a = pd.DataFrame({'col1': [np.nan, 1, np.nan, 3, np.nan, 5, np.nan]})
Out[1]: 
   col1
0   NaN
1   1.0
2   NaN
3   3.0
4   NaN
5   5.0
6   NaN

>>> a.interpolate(method='linear')
Out[2]: 
   col1
0   NaN
1   1.0
2   2.0
3   3.0
4   4.0
5   5.0
6   5.0

>>> a.interpolate(method='nearest')
Out[3]: 
   col1
0   NaN
1   1.0
2   1.0
3   3.0
4   3.0
5   5.0
6   NaN

看起来linear方法将对尾随 NaN 进行外推，而“最近”方法则不会，除非您指定fill_value = 'extrapolate':

>>> a.interpolate(method='nearest', fill_value='extrapolate')
Out[4]: 
   col1
0   NaN
1   1.0
2   1.0
3   3.0
4   3.0
5   5.0
6   5.0

所以我的问题是为什么这两种方法在处理尾随 NaN 时表现不同？这是它应该的样子还是一个错误？

两个版本的 pandas“0.16.2”和“0.20.3”也发现了相同的结果。

pandas.Series.interpolate()也显示了同样的问题。

有一个thread https://stackoverflow.com/questions/25255496/dataframe-interpolate-extrapolates-over-trailing-missing-data and a github问题 https://github.com/pandas-dev/pandas/issues/8000#issue-40056131谈论类似的问题但目的不同。我正在寻找这个问题的解释或结论。

EDIT:

更正：方法linear方法的行为不完全是extrapolation，你可以看到最后一行的填充值是 5 而不是 6。现在看起来更像是一个 bug，是吗？

@D.Weis 这是一个很好的问题，让我深入解释一下，没有线程和 github 问题。让我一步步解释。

>>> a = pd.DataFrame({'col1': [np.nan, 1, np.nan, 3, np.nan, 5, np.nan]})
Out[1]: 
   col1
0   NaN
1   1.0
2   NaN
3   3.0
4   NaN
5   5.0
6   NaN

1.)“线性”插值

在“线性”插值中，缺失值由两个最近的位置值填充。在“最近”插值中，它将通过最近的周围值填充缺失值，但是，在“最近”插值中，缺失值将具有与附近位置值相同的值。我在第 (2) 节中更深入地解释了“最近”插值。

“线性”插值示例：

    1   1.0    1. 1.0 
    2   NaN    2. 2.0
    3   3.0    3. 3.0
    4   NaN    4. 4.0

这里，第二个位置是空的。因此，为了填充它的值，它将采用第 1 和第 3 位置的值，分别为 1.0 和 3.0。再次记住，在“线性”插值中，只需要 2 个周围值即可填充缺失值。

(1.0+3.0/2) =2.0 = Answer for  2nd position. Similarly it will be for other values.

2.) 按“最近”插值

>>> a.interpolate(method='nearest')
Out[3]: 
   col1
0   NaN
1   1.0
2   1.0
3   3.0
4   3.0
5   5.0
6   NaN

基本上，在“最近”插值中，它用最近值中的相同值填充缺失值。例如，

1   1.0    1. 1.0 
2   NaN    2. 1.0
3   3.0    3. 3.0
4   NaN    4. 3.0

因此，在上面的示例中，您可以轻松地看到位置 2nd 与位置 1st 具有相同的值，因为它是最接近位置 1 的值。总之，请记住，在“最近”插值中，缺失值将在最近的周围值的帮助下由相同的值填充。

In method='nearest', fill_value='extrapolate'您可以在示例中看到它将用第五个位置的相同值填充最后一个值。该概念与填充缺失值的概念保持相同，如上所述。

笔记：此外，还有其他插值方法，例如“双线性”、“双三次”等。这都是关于填充缺失值的准确性。

我的建议是，如果您想从“最近”插值和“线性”插值中进行选择。我会说使用“线性”插值，因为它会比“最近”插值更准确地填充值。

希望这会对您有所帮助。祝你好运！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas.DataFrame interpolate() 方法='线性'和'最近'返回尾随 NaN 不一致的结果的相关文章

如何从字典构造defaultdict？

如果我有d dict zip range 1 10 range 50 61 我怎样才能建立一个collections defaultdict出于dict 唯一的论点defaultdict似乎采取的是工厂功能我必须初始化然后再经历原来的d并
使用 scikit 确定每个特征对特定类别预测的贡献

我正在使用 scikit 额外的树分类器 model ExtraTreesClassifier n estimators 10000 n jobs 1 random state 0 一旦模型拟合并用于预测类别我想找出每个特征对特定类别预测
winpdb 不适用于 python 3.3

我无法让 rpdb2 与 python 3 3 一起运行但根据多个来源这应该是可能的 rpdb2 d myscript py A password should be set to secure debugger client serv
pandas 使用查询功能检查列是否为空

我有 pandas 数据框我想在它的查询函数上执行 isnull 或 not isnull 条件如下所示 In 67 df data pd DataFrame a 1 20 None 40 50 In 68 df data Out 68
无法从同一项目的 bin 目录导入模块

我正在构建一个库该库将通过 pip 包含在其他项目中我有以下目录 venv 是 virtualenv project bin run py myproj init py logger py venv 我激活虚拟环境在 bin run
Pythonic方式逐行读取文件？

以下两种方法中逐行读取文件的 Pythonic 方法是什么 with open file r as f for line in f print line or with open file r as f for line in f read
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何读取 10 位原始图像？其中包含 RGB-IR 数据

我想知道如何从我的 10 位原始它有 rgb ir 图像数据数据中提取 RGB 图像如何使用 Python 或 MATLAB 进行阅读拍摄时的相机分辨率为 1280x720 室内照片图片下载 https drive google c
Python 有哪些 SOAP 客户端库，它们的文档在哪里？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 matplotlib 中查看然后自动关闭图形？

我必须检查我的参数设置是否正确因此我需要绘制许多图为了绘制这些图我选择使用 matplotlib 每次检查后我需要单击左上角的关闭按钮这很微不足道那么有没有什么方法可以让剧情在3 5秒左右显示并且无需点击就自动关闭呢我知道关于
如何开始使用“scipy”

我之前安装过 Python 3 4 2 和 3 5 2 在这两种情况下我都可以在 Idle 中涉足编写和测试代码这给了我两个窗口一个用于代码的运行窗口一个用于交互和测试的 Shell 窗口输出抱歉不确定术语是否正确现在我
在pycharm中使用多处理时如何调试

我正在 pycharm 社区版中使用 anaconda2 调试多进程程序它有几个后台工作进程工作进程将检查输入队列以检索任务而不会休眠直到收到任务事实上我只对主要流程感兴趣但是pycharm调试器总是单步进入子进程看起来主进
单个函数的 Numpy 均值和方差？

使用 Numpy Python 是否可以从单个函数调用返回均值 AND 方差我知道我可以单独做它们但是计算样本标准差需要平均值因此如果我使用单独的函数来获取均值和方差则会增加不必要的开销我尝试在这里查看 numpy 文档 htt
如何用不同的颜色填充seaborn.distplot中的区域

是否可以用颜色填充两条阈值线 line1 和 line2 之外的区域并通过 distplot 绘制的 KDE 曲线限制 Y 轴代表我的应用程序的 3 sigmas import pylab as pl import seaborn as
随机数生成器每次仅返回一个数字

Python 是否有一个随机数生成器每次只返回一个随机整数next 函数被调用数字不应该重复并且生成器应返回区间内的随机整数 1 1 000 000 这是独一无二的我需要生成超过一百万个不同的数字这听起来好像非常消耗内存以防所有数
使用 PyODBC 选择表中的列名

我正在编写一个 Python 程序该程序使用 PyODBC 从 Microsoft Access mdb 文件中选择一些数据我需要发现几个不同表的列名在 SQL Server 中这可以通过使用类似的查询来完成 SELECT c na
如何使用 np.newaxis？

What is numpy newaxis https numpy org doc stable reference constants html numpy newaxis我什么时候应该使用它在一维数组上使用它x产生 gt gt gt
设置restrict_xpaths设置后出现UnicodeEncodeError

我是 python 和 scrapy 的新手将restrict xpaths 设置设置为 table class lista 后我收到了以下回溯奇怪的是通过使用其他 xpath 规则爬虫可以正常工作 Traceback most
Python 装饰器只是语法糖？ [复制]

这个问题在这里已经有答案了可能的重复了解 Python 装饰器 https stackoverflow com questions 739654 understanding python decorators 我对使用 Python 装
无法比较类型“ndarray(dtype=int64)”和“str”

Example of data that I want to replace 数据具有以下属性购买 V 高高中低维持 V 高高中低门 2 3 4 5 更多 2 4人以上 lug boot 小中大安全性低中高这就是

随机推荐

如何使用 pysolr 对 solr 进行原子更新？

我找不到关于如何使用 pysolr 更新 solr 的合适文档截至 2014 年 11 月原子更新 https github com toastdriven pysolr commit c49be48d459448532b5ad0f505
使用 TcpClient 和反应式扩展从 Stream 读取连续字节流

考虑以下代码 internal class Program private static void Main string args var client new TcpClient client ConnectAsync localhos
删除 Pandas DataFrame 中的多个行范围

例如如果我们有一个大小为 100 5 的 Pandas DataFrame 并且想要删除多个行范围不是多行或一系列行而是多个行范围通过索引有没有办法做到这一点而不必循环索引举个例子如果我想删除 Pandas DataFrame
Git rebase 分支与所有父分支（或依赖子分支）

是否可以使用 Git 来对分支及其所有父分支进行变基我认为父分支是在这里使用的正确形式根据您的观点您也可以将它们称为依赖子分支但是遵循提交的父指针将让您到达这些分支所以恕我直言称它们为父分支是公平的我经常使用分支作为快
使用 Jackson 对 List 进行自定义反序列化

我正在尝试编写一个自定义反序列化器以便减少从其他地方收到的大量数据我从反序列化器返回自定义对象列表我的问题是如果这是我的自定义反序列化器我该怎么做 public class MyCustomDeserializer extends
如何避免Spring的@RequestMapping路径冲突？

我想使用 Spring 定义 REST API 我有这 2 个 Controller 方法 RequestMapping value machineId workspaces workspaceId method RequestMethod
从左到右和从右到左滑动图像

我正在开发一个应用程序我想在其中添加可以从左到右和从右到左滑动的图像如下图所示内部的白色游戏图像应该从左到右移动反之亦然到目前为止我所做的是我能够从左到右移动单个图像反之亦然但我想要设置背景图像就像上面的圆形黑色背景一样
更改 Mac 上的默认 python 版本 - 安装 Biopython

我的 Mac 预装了 python 2 7 作为默认的 python 版本但是许多软件包和软件不再支持该版本我搜索了几个在线论坛了解如何更改 mac 上的默认 python 版本但是它们似乎都不起作用我还安装了最新版本的 py
如何使用 Validators 类在 Angular2 中显示不同的电子邮件验证消息？

我在用表格组表单生成器 and 验证者类来验证 Angular2 应用程序中的表单这就是我定义电子邮件和密码验证所需的验证规则的方式 export class LoginComponent implements OnInit login
在 mac OS X 上挂载批准回调

我想在 Mac OS X 上授权 USB CD 现在我使用 DiskArbitration 框架在用户模式下获取 MountApprovalCallback 但这个回调的问题在于它没有保证如果我会得到回调我正在使用CFUserNotifi
Twig 用实体替换非 ASCII 字符

嗯这真的很奇怪 Twig 我在 Symfony 3 中使用它将非 ascii 字符例如替换为实体例如 322 但是仅在 Javascript 部分我不知道为什么以及如何禁用它编辑是的我在 Netbeans 和 HTML
node_modules/@types/googlemaps/index.d.ts 中出现错误 - 元组类型元素列表不能为空

在尝试整合的同时角度谷歌地图 agm在我的 Angular 项目中我收到此错误某些配置有问题或者可能是我错过了一些东西我正在这个项目中使用材料 6 和角度 6 感谢您的帮助在终端控制台中 ERROR in node modules t
Java 用户帐户管理解决方案

我目前正在开发一个依赖权限机制来管理用户内容的 Java Web 应用程序这当然意味着我们需要管理用户我们当前的用户管理系统是一个内部系统用于管理 RDBMS 中有关用户组以及用户和权限的信息该系统可以工作但维护起来很麻烦我想
HTML 时间输入类型 - 如何在单击任意位置而不仅仅是单击时钟图标时选择时间菜单视图

I working on the time input type in HTML my problem is when I click on the small clock icon on the right side of the inp
AES-256 加密和 Apple iTunes 导出限制

我有一个很大的问题我开发了 3 个应用程序 2 个用于 IOS 1 个用于 mac osx 来加密文件RNCryptor https github com rnapier RNCryptor 女巫是一个CCCryptor AES 加密包
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
EntityDataSource 在查询中将 * 替换为 % 通配符

我有一个在很多地方使用 EntityDataSource 的应用程序在 EDS 中我根据 TextBox 中的用户输入手动构建Where 子句我希望用户在查询数据时能够输入星号而不是有没有像使用 Entity SQL 或 EDS
.crx 文件在 Chrome 中安装

我刚刚创建了一个非常简单的 chrome 扩展它运行良好但是当我转换为 crx 文件并尝试用 chrome 打开它时没有任何反应我的chrome浏览器版本是19 0 1081 2 dev m 我的扩展使用jquery 1 4 2 m
NSFileHandle writeData：异常处理

这可能是一个相当广泛的问题但我找不到任何在线资源来解决或解释这个问题问题是创建后NSFileHandle writer NSFileHandle fileHandleForWritingAtPath path 当你使用 writer w
Pandas.DataFrame interpolate() 方法='线性'和'最近'返回尾随 NaN 不一致的结果

我在探索pandas DataFrame interpolate 用不同的方法 linear vs nearest 当尾部缺少数据时我发现这两种方法的输出不同例如 import pandas as pd version 0 16 2 o

Pandas.DataFrame interpolate() 方法='线性'和'最近'返回尾随 NaN 不一致的结果

Pandas.DataFrame interpolate() 方法='线性'和'最近'返回尾随 NaN 不一致的结果 的相关文章

随机推荐

热门标签

Pandas.DataFrame interpolate() 方法='线性'和'最近'返回尾随 NaN 不一致的结果的相关文章