在 Python 中插入缺失值

2024-04-21

所有 - 我希望你能够提供帮助,因为这是我知道我几乎从这里和网上的各种帖子中破解的任务之一,但还没有完全发挥作用。

本质上,我在数据库中有以下数据,通过 psql.read_sql(sql, cnxn) 返回到 Pandas 对象

+------------------------------------+
|              StartTime  StartLevel |
+------------------------------------+
| 0  2015-02-16 00:00:00     480.000 |
| 1  2015-02-16 00:30:00     480.000 |
| 2  2015-02-16 00:34:00     390.000 |
| 3  2015-02-16 01:00:00     390.000 |
| 4  2015-02-16 01:30:00     390.000 |
| 5  2015-02-16 02:00:00     480.000 |
| 6  2015-02-16 02:17:00     420.000 |
+------------------------------------+

StartTime     datetime64[ns]
StartLevel           float64
dtype: object

我只是想对上述数据进行逐分钟的插值。

我还以分钟频率创建了一个日期时间系列,但在我的一生中,我无法将我的表“映射”到此上,然后进行插值,或者如何将 StartTime 重新采样到分钟粒度,然后插值丢失的数据。

任何帮助将不胜感激(我确信当我找到解决方案时我会踢自己!) - 非常感谢

UPDATE

根据下面的建议,代码如下:

import datetime
import numpy as np
import pandas as pd
import pyodbc
import pandas.io.sql as psql


cnxn = pyodbc.connect('DSN=MySQL;DATABASE=db;UID=uid;PWD=pwd')
cursor = cnxn.cursor()
sql = """
    SELECT
    StartTime,StartLevel
FROM
    aa.bb
    where cc = 'dd'
    and StartTime < '2015-02-16 02:30:00'
    order by StartTime asc"""

old_df = psql.read_sql(sql, cnxn)


num_minutes = 120
base = datetime.datetime(2015, 02, 16, 00, 00, 00)
date_list = [base + datetime.timedelta(minutes=x) for x in range(0, num_minutes)]
# set num_minutes for whatever is the correct number of minutes you require
new_data = [dict(StartTime=d, fake_val=np.NaN) for d in date_list]
new_df = pd.DataFrame(new_data)
new_df['StartLevel'] = old_df['StartLevel']
new_df.interpolate(inplace=True)

new_df 在提示符下的输出是:

+-----------------------------------------------+
|              StartTime  fake_val  StartLevel  |
+-----------------------------------------------+
| 0   2015-02-16 00:00:00       NaN         480 |
| 1   2015-02-16 00:01:00       NaN         480 |
| 2   2015-02-16 00:02:00       NaN         390 |
| 3   2015-02-16 00:03:00       NaN         390 |
| 4   2015-02-16 00:04:00       NaN         390 |
| 5   2015-02-16 00:05:00       NaN         480 |
| 6   2015-02-16 00:06:00       NaN         480 |
+-----------------------------------------------+

我很确定这不是最Pythonic的答案,所以我欢迎评论来改进它,但我相信你可以做这样的事情

首先创建您想要值的所有日期时间对象

num_minutes = 120
base = datetime.datetime(2015, 02, 16, 00, 00, 00)
date_list = [base + datetime.timedelta(minutes=x) for x in range(0, num_minutes)]
# set num_minutes for whatever is the correct number of minutes you require

然后使用这些索引值创建一个“假”数据框

new_data = [dict(StartTime=d, fake_val=np.NaN) for d in date_list]
new_df = pd.DataFrame(new_data)

EDIT:更正的反应

现在我们想要将两个数据帧合并为一个(并按日期排序):

final_df = new_df.merge(df, how='outer', on='date').sort(columns='date')

final_df现在将按日期排序并包含正确的值StartLevel当你有数据并且NaN当你没有数据时。然后你可以打电话interpolate

EDIT:未调用插值inplace默认情况下,因此您需要设置该标志或保存结果

final_df = final_df.interpolate()

or

final_df.interpolate(inplace=True)

显然fake_val一旦合并了好的数据,就可以丢弃该列。创建该数据帧的目的是让一个数据帧包含您想要的所有值(这是我确信有一个更Pythonic的答案的地方)

完整文档interpolate可以被找寻到here http://pandas.pydata.org/pandas-docs/dev/generated/pandas.DataFrame.interpolate.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中插入缺失值 的相关文章

随机推荐

  • IE 未在 TLS 相互身份验证中发送客户端证书

    我正在尝试与第三方 API 建立 TLS 相互身份验证 客户端证书配置良好 当我尝试通过 Chrome 访问端点 url 时 它工作正常 Chrome 要求在消息框中确认证书 当我这样做时 页面会显示其内容 当我尝试使用 IE 执行同样的操
  • Routes.rb vsrack-rewrite vs nginx/apache 重写规则

    我的应用程序的前一个版本中的遗留 URL 有数十条重写规则 我看到三个选择 只需在路由文件 config routes rb 中添加 匹配 行 Use 机架重写 https github com jtrupiano rack rewrite
  • 用于展平嵌套列表的递归生成器

    我是一名编程新手 在理解我的 Python 教科书 Magnus Lie Hetland 的 Beginning Python 中的示例时遇到了一些困难 该示例是一个递归生成器 旨在展平嵌套列表的元素 具有任意深度 def flatten
  • Apple 听写 - 在应用程序中使用

    有什么方法可以在本机 Apple 应用程序中利用 Apple 的听写语音转文本功能吗 你的问题有点模糊 最好先知道你尝试使用或做什么 或者你想要实现什么目标 更常见的是关键字识别 API 但可以用于此目的的语音识别 API 是张开耳朵 ht
  • iOS Storyboard:ViewController 外部和场景顶部的视图(第一响应者和退出框之间)

    我很难理解为什么你可以把UIViews之外的UIViewController在故事板上 以及它的用例可能是什么 例如 在故事板上我可以添加UIToolbar UIAcitivtyIndicator and UIProgressView那是在
  • 如何在类模板中使用文件范围的命名空间声明?

    C 10 介绍文件范围的命名空间 https learn microsoft com en us dotnet csharp language reference proposals csharp 10 0 file scoped name
  • 安卓蓝牙无法连接

    我遇到这个问题已经有一段时间了 但一直无法解决 我有一个 Android 应用程序 它将所有配对的设备放在列表视图中 当您单击列表项之一时 它将发起连接到该蓝牙设备的请求 我可以毫无问题地获取设备列表及其地址 问题是 一旦我尝试连接 我就会
  • 如何在 AWS 上设置无密码 ssh

    如何在 AWS 集群上的节点之间设置无密码 ssh 以下设置无密码身份验证的步骤已针对 Centos 和 Ubuntu 进行了彻底测试 假设 您已经可以访问您的 EC2 机器 可能正在使用 pem 密钥 或者您拥有具有 root 权限的 u
  • Windows 7 为软件开发人员带来哪些好处? [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我正在尝试将我的开发计算机升级到 W
  • 如何重置 JSESSIONID

    当用户进行身份验证时重置会话 cookie 被认为是一种良好的安全实践 如何用 Java 做到这一点 到目前为止我的尝试是成功的 但我想知道是否有更好的方法 public static HttpSession resetSessionId
  • 车把模板的文件扩展名

    我更改了车把模板的扩展名 并在调用 handlebarjs 编译函数的函数中引用了相同的扩展名 它工作得很好 没有任何问题 但我很好奇是否还有其他人尝试过 如果您认为这可能会因任何原因导致问题 请告诉我 出于某种原因 我觉得扩展名 hand
  • Java 中搜索和排序算法的高效实现

    有没有人有关于常见搜索和排序算法的一组 Java 代码实现的良好参考 剥猫皮的方法有很多种 很容易在网上找到各种算法的 Java 代码 但是 Java 中是否有实现这些不同算法的最有效方法的列表 例如有http www algorithmi
  • 将 float 和 double 值与 delta 进行比较?

    据我了解 必须仔细比较浮点类型的值 以避免固有浮点错误的问题 这可以通过将值与错误阈值进行比较来改进 例如 以下解决方案比简单的解决方案更有用x y test static float CompareRelativeError float
  • 如何通过 jQuery Ajax 发布数据在 PHP 中编码 JSON?

    我有一个 HTML 表单 并在点击提交按钮时将数据发送到 php 文件 ajax url text php type POST data amount amount firstName firstName lastName lastName
  • 单击添加类和删除时切换类

    如果我单击项目 我需要添加类名 如果单击同一项目 则需要删除 ngFor 循环的类
  • Angular Material:如何在注销时关闭所有垫对话框和甜蜜警报

    我想在 Angular 注销时关闭所有对话框 mat dialog 引导模式和甜蜜警报 这是 AngularJS 版本 1 5 中的实现方式 function logout hide mdDialog modal angular eleme
  • 如何将客户端证书与 ftp_ssl_connect 一起使用

    我正在寻找通过 SSL 连接使用 FTP 服务器的最佳方法 通常 推送文件以及获取服务器上的文件列表 该项目的一项要求是我必须使用客户端 X 509 证书作为身份验证过程的一部分 我可以使用 php 函数 ftp ssl connect 来
  • 将我的 apk 推送到 /system/app

    如何推送我的应用程序包 到Android模拟器 system app 文件夹 我已经尝试过使用 adb 推送 myApk apk system app 它给了我这个 failed to copy No space left on devic
  • 如何使用 JSF/MyFaces 创建基于用户角色的条件?

    我必须使用哪些选项才能从 JSP 页面读取当前用户的角色 我知道visibleOnUserRole myRole Tomahawk 组件上的属性 但我需要角色来处理比简单可见性更复杂的事情 The 外部上下文 http docs oracl
  • 在 Python 中插入缺失值

    所有 我希望你能够提供帮助 因为这是我知道我几乎从这里和网上的各种帖子中破解的任务之一 但还没有完全发挥作用 本质上 我在数据库中有以下数据 通过 psql read sql sql cnxn 返回到 Pandas 对象 StartTime