处理时间序列中的缺失值

2024-01-11

我正在处理时间序列数据，我需要有连续的时间戳，但在捕获时很少有数据时间戳点被遗漏，如下所示，

DF

ID Time_Stamp             A           B                 C
1  02/02/2018 07:45:00   123          567               434     
2   02/02/2018 07:45:01    
.....                  ...

5   02/02/2018 07:46:00   
6   02/02/2018 07:46:10    112          2323            2323

如示例所示df上面，时间戳是连续的，直到row 5但错过了捕获数据10 seconds之间5th and 6th row。我的数据框是关于60000 rows手动识别缺失值非常繁琐。因此，我一直在寻找使用 R 自动化处理缺失值的过程

我的结果数据框如下，

ID Time_Stamp                     A           B                 C
1  02/02/2018 07:45:00           123          567               434     
2   02/02/2018 07:45:01    
.....                  ...

5   02/02/2018 07:46:00         mean(A)
5.1  02/02/2018 07:46:01        mean(A)     mean(b)         mean(c)
5.2  02/02/2018 07:46:02        mean(A)     mean(b)         mean(c) 
5.3  02/02/2018 07:46:03        mean(A)     mean(b)         mean(c) 
5.4  02/02/2018 07:46:04        mean(A)     mean(b)         mean(c)
5.5  02/02/2018 07:46:05        mean(A)     mean(b)         mean(c)
5.6  02/02/2018 07:46:06        mean(A)     mean(b)         mean(c)
5.7  02/02/2018 07:46:07        mean(A)     mean(b)         mean(c)
5.8  02/02/2018 07:46:08        mean(A)     mean(b)         mean(c)
5.9  02/02/2018 07:46:09        mean(A)     mean(b)         mean(c)
6   02/02/2018 07:46:10         112         2323            2323

请帮忙！

最好有一个具体的例子来显示具体的预期输出，这样就没有什么歧义和假设的空间。但是，我根据我的理解创建了一个虚拟数据，并尝试相应地解决它。

如果我理解正确的话，你会有每秒都有数据点的时间序列数据，但有时会缺少一些秒，你想用它来填充它mean该列的。

我们可以使用以下方法来实现这一点complete通过在之间的每一秒生成一个序列min and max Time_Stamp并通过以下方式填充缺失值mean在相应的列中。ID看起来像是每行的唯一标识符，所以用它填充row_number().

library(dplyr)
library(tidyr)

df %>%
  complete(Time_Stamp = seq(min(Time_Stamp), max(Time_Stamp), by = "sec")) %>%
  mutate_at(vars(A:C), ~replace(., is.na(.), mean(., na.rm = TRUE))) %>%
  mutate(ID = row_number()) 


# A tibble: 11 x 5
#   Time_Stamp             ID     A     B     C
#   <dttm>              <int> <dbl> <dbl> <dbl>
# 1 2018-02-02 07:45:00     1  123   567   434 
# 2 2018-02-02 07:45:01     2  234   100   110 
# 3 2018-02-02 07:45:02     3  234   100   110 
# 4 2018-02-02 07:45:03     4  176.  772.  744.
# 5 2018-02-02 07:45:04     5  176.  772.  744.
# 6 2018-02-02 07:45:05     6  176.  772.  744.
# 7 2018-02-02 07:45:06     7  176.  772.  744.
# 8 2018-02-02 07:45:07     8  176.  772.  744.
# 9 2018-02-02 07:45:08     9  176.  772.  744.
#10 2018-02-02 07:45:09    10  176.  772.  744.
#11 2018-02-02 07:45:10    11  112  2323  2323

如果您检查最后 3 列的列均值，您可以看到这些值已被准确替换。

colMeans(df[3:5])
#     A      B      C 
#175.75 772.50 744.25

data

df <- structure(list(ID = 1:4, Time_Stamp = structure(c(1517557500, 
1517557501, 1517557502, 1517557510), class = c("POSIXct", "POSIXt"
), tzone = "UTC"), A = c(123L, 234L, 234L, 112L), B = c(567L, 
100L, 100L, 2323L), C = c(434L, 110L, 110L, 2323L)), class = "data.frame", 
row.names = c(NA, -4L))

看起来像

df

#  ID          Time_Stamp   A    B    C
#1  1 2018-02-02 07:45:00 123  567  434
#2  2 2018-02-02 07:45:01 234  100  110
#3  3 2018-02-02 07:45:02 234  100  110
#4  4 2018-02-02 07:45:10 112 2323 2323

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

TimeSeries

处理时间序列中的缺失值的相关文章

在 R 中编写多重积分函数

为了将以下内容转换为函数我想知道如何用 R 代码编写以下二重积分 bar x mu 假设pi0 and pi1以向量化方式实现函数 pi 0 和 pi 1 可能的解决方案是 integral lt function n mu s pi0
提取模型摘要并将其存储为新列

我是新来的purrr范例并正在努力解决它根据一些来源我已经设法嵌套一个数据框在嵌套数据上运行线性模型从每个 lm 中提取一些系数并为每个 lm 生成摘要我想做的最后一件事是从摘要中提取 r squared 我原以为这将是我想要实
有什么方法可以访问 makeActiveBinding 安装的函数吗？

标题基本上说明了一切如果我这样做 makeActiveBinding x function runif 2 GlobalEnv x 1 0 7332872 0 4707796 x 1 0 5500310 0 5013099 那我有什么办法
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
直接来自数据的马尔可夫模型图（makovchain 或 deemod 包？）

我想读取一堆因子数据并从中创建一个可以很好地可视化的转换矩阵我发现了一个非常好的软件包称为 heemod 它与 diagram 一起工作得不错对于我的第一个快速而肮脏的方法我运行了一段 Python 代码来获取矩阵然后使用这个 R
R + ggplot2 - 无法分配大小为 128.0 Mb 的向量

我有一个 4 5MB 9 223 136 行的文件其中包含以下信息 0 0 0 0147938 3 67598e 07 0 0226194 7 35196e 07 0 0283794 1 10279e 06 0 033576 1 470
如何计算满足条件的行数

假设我有以下数据框 Data1 X1 X2 1 15 1 2 3 1 3 7 0 4 11 1 5 1 0 6 9 0 7 18 0 8 6 1 9 3 1 我想知道如何找到观察的总数X1大于 9 并且X2等于1 我想我需要使用sum 但我
在 R 中查找 Windows 用户名

有没有办法在 R 会话中获取当前的 Windows 用户名或 Windows 主目录 Thanks 抱歉如果我错过了什么但我找不到任何东西你可以做 Sys getenv USERNAME Sys getenv HOME 如果你只是输入
knn-相同的k，不同的结果

我有一个矩阵ZZ 我跑完之后prcomp并选择了我收到的前 5 台电脑data new P prcomp zz data new P x 1 5 然后我分成训练集和测试集 pca train data new 1 121 pca test
挖泥机子集 (MuMIn) - 如果存在主效应，则必须包括交互作用

我正在使用 dredge MuMIn 进行一些探索性工作在此过程中我想将两个变量设置为仅当它们之间存在相互作用时才允许一起出现即它们不能仅作为主要效果一起出现使用样本数据我想挖掘模型 fm1 尽管它可能没有意义如果变量 GNP
使用 ggplot 将条形图的列与线图的点对齐

当线图的点与条形图的条具有相同的 x 轴时有什么方法可以使用 ggplot 将它们对齐这是我尝试使用的示例数据 library ggplot2 library gridExtra data data frame x rep 1 27 e
为什么我收到保存错误、软盘错误的消息？

我最近更新了 R 和 R studio 当我尝试保存文件时收到一条错误消息保存文件名时出错驱动器中的软盘错误将 2 卷序列号 3 插入驱动器 1 这是第一次看到这个错误信息不知道该怎么办我也无法另存为感谢您的帮助尝试使
在 r 中使用 SSasymp

我想我不知道如何在 r 中使用 SSasymp 函数我想为我的项目创建一个渐近函数我试过这个 c lt seq 0 200 0 5 d lt SSasymp c 500 0 log 50 plot c d type l log 50 应
基于多列重新编码数据框列[重复]

这个问题在这里已经有答案了如何根据其他列的值重新编码列假设我有以下数据框我想重新编码df Col3使得该值为 0 如果df Col1 x and df Col2 a gt df lt data frame a c rep x 3 re
删除ggplot2 geom_bar中没有数据的日期列[重复]

这个问题在这里已经有答案了我想隐藏 ggplot2 中没有数据的列这是使用 nycflights13 库的可重现示例 library nycflights13 library dplyr library ggplot2 small da
R 比较所有列对的每个值[重复]

这个问题在这里已经有答案了我有一个 18x18 的数据框我想将所有可能的列对相互比较以便对于每对两列 18 行中的值相互比较由于我的数据太大无法放在这里我写了一个小例子来说明到目前为止我所想到的 gt a lt c 1 18 g
在 R 中按邮政编码绘制美国地图上的点，并插入阿拉斯加和夏威夷

我正在尝试以密度点格式在美国地图上绘制点其中每个邮政编码的点的大小根据该邮政编码中从事某种职业的人数而定我已经非常接近我需要的东西但正在努力获取阿拉斯加和夏威夷的坐标它们需要在插图上这里的第一组代码是我所拥有的 loc full2
按元素名称组合/合并列表

我有两个列表其元素的名称部分重叠我需要将其逐个元素合并组合成一个列表 gt lst1 lt list integers c 1 7 letters letters 1 5 words c two strings gt lst2 lt
R：如何在不耗尽内存的情况下重新绑定两个巨大的数据帧

我有两个数据框df1 and df2每个都有大约 1000 万行和 4 列我使用 RODBC sqlQuery 将它们读入 R 没有任何问题但是当我尝试rbind他们我收到了最可怕的 R 错误消息 cannot allocate me
将一个 Rmarkdown 文档中的代码块插入到另一个 Rmarkdown 文档中

我一直在举办一些小型 R 教程研讨会我将挑战脚本保存在 Rmarkdown 文档中它们包含自由文本和 R 代码块一些代码块是预先填充的例如为了设置数据集以供以后使用而一些代码块则供与会者在研讨会期间填写代码对于每个挑战脚

随机推荐

PySpark：从数据帧创建字典的字典？

我有以下格式的数据这些数据是从 Hive 获取到数据帧中的 date stock price 1388534400 GOOG 50 1388534400 FB 60 1388534400 MSFT 55 1388620800 GOOG 5
如何在Windows中使用批处理文件删除包含特定字符串的文件？

我的松下相机使用其愚蠢的 PHOTOfunSTUDIO 来导入照片它按照片拍摄日期的名称创建文件夹并将照片分别导入到这些文件夹中到目前为止一切都很好但是如果我在从相机中删除所有旧照片之前再次导入则无论我如何更改该软件的设置旧
将 Docker 容器与 Mesos/Marathon 链接

到目前为止我使用 Mesos Marathon 和 Docker 来管理服务器群以及放置在服务器上的容器取得了巨大成功然而我现在想更进一步开始做一些事情比如自动将 haproxy 容器链接到每个启动的主 docker 服务或者
SQL Server 2012 CTE 查找分层数据的根或顶层父级

我在尝试递归地遍历层次结构以查找组织结构中可能具有的所有后代节点的顶部节点时遇到问题multiple顶级节点我正在尝试使用 SQL Server 2012 CTE 来执行此操作但它不会递归到达每个分支的最顶层节点我已经尝试完全按照与此
我的 Web api 2 控制器需要路由

我有一个返回 XML 的简单 WebApi2 控制器但我无法使用我定义的路由正确添加另一个方法 namespace CBMI WebAPIservice Controllers public class MarkersController
使用 QWebEngine 渲染图像

我正在寻找替换QWebKit with QWebEngine在我的无头渲染器中我初始化页面load 并将一个插槽连接到loadFinished 生成最终的 PNG 图像这曾经工作得很好WebKit但失败了QWebEngine 代码如下
在 Jekyll 上的 CSS 中使用 Liquid 诱惑来调整每页的 div 背景颜色

我正在使用 Jekyll 和 Liquidwebsite http annawees github io 我一直坚持在 CSS 中使用 Liquid 来正确编译我尝试为每个页面的边框使用不同的颜色并将默认设置为黑色我很欣赏你们的任何见
RealmList序列化问题（Realm/Gson/Intent）

我在项目中使用了 Retrofit Gson 和 Realm 我有这门课Example需要是Serializable 如果没有 Realm 我会这样写 public class Example implements Serializable
HttpWebRequest 底层连接已关闭

我在用HttpWebRequest to POST通过网络服务的字节数组图片图片大小类似于byte 4096 Code HttpWebRequest webRequest HttpWebRequest WebRequest Create
从 JNI 调用函数指针

我已经在 cpp 中用原型实现了一个函数 MyFunction int size int 回调 UINT16 arg1 UINT16 arg2 第二个参数是一个函数指针必须在java中实现我怎样才能实现该功能另外我如何在 JNI 中调
关于使用 Async 和 Await C# 进行异步编程的问题[重复]

这个问题在这里已经有答案了我正在学习如何使用 Async 和 Await C 所以我得到了一个链接http msdn microsoft com en us library vstudio hh191443 aspx BKMK WhatH
将 Rcpp 函数扩展到任何类型的输入向量

我有以下函数它执行一个简单的循环NumericVector并返回int类型值 Rcpp cppFunction int calc streak NumericVector x int i1 int i2 int cur streak 1
在 matplotlib 中向 3d 箭袋图添加颜色

我想要在 3d 箭袋图中具有与颜色图相对应的颜色绘图的 2d 版本有一个可选数组用于将颜色映射到箭头如何在 3d 版本中创建相同的效果 3D 箭袋图是 1 4 中的一个全新功能它及其文档可能仍然有点粗糙在这种情况下我们可以尝
将字符串列表转换为排序的映射字符串长度作为键

我有一个List
动画汉堡导航

我正在为我的网站创建一个完整的页面导航阴影以便它在所有设备上都相同目前我有两个按钮一个用于当阴影在视野中时一个用于当阴影不在视野中时我想知道是否让一个按钮始终存在以便可以动画化会更好我的目标是像squeeze动画片here ht
固定大小缓冲区不能直接从“this”对象使用

我使用结构来表示纯数据其中一个字段是固定大小的缓冲区如下所示 StructLayout LayoutKind Sequential Pack 2 unsafe struct ImageDosHeader private fixed us
如何解决部署到heroku时rails中的更新捆绑器警告？

出现以下警告该如何解决我将 ruby 版本更新为 2 3 1 将 Rails 版本更新为 4 2 6 当我将应用程序推送到 heroku 时我收到此警告 remote Cleaning up the bundler cache remo
在 php 数据表中添加属性以用于 google 图表自定义 html 工具提示

我正在尝试通过将自定义 html 工具提示添加到数据表中来在我的 google 图表中创建自定义 html 工具提示现在我的数据表正在 PHP 中创建如下所示 datatable array cols gt array array ty
如何获取事务内SELECT语句的结果？

我无法通过 PostgreSQL 文档网络甚至 StackOverflow 获得有关这个简单问题的信息我一定不明白这里的一些重要内容我正在做一个简单的SELECT UPDATEPostgreSQL 中的事务 START TRANSAC
处理时间序列中的缺失值

我正在处理时间序列数据我需要有连续的时间戳但在捕获时很少有数据时间戳点被遗漏如下所示 DF ID Time Stamp A B C 1 02 02 2018 07 45 00 123 567 434 2 02 02 2018 07 4

处理时间序列中的缺失值

处理时间序列中的缺失值 的相关文章

随机推荐

热门标签

处理时间序列中的缺失值的相关文章