论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts

2023-11-18

ICDE 2019

0 摘要

        在执行时间序列分析时,恢复时间序列中的缺失值至关重要。而本文研究的blackouts问题,即在一定时期内丢失所有数据,是最紧迫和最具挑战性的问题之一。现有的时间序列缺失值恢复方法无法正确处理这个问题,但在这项工作中,我们提出了一种基于 Hankel 矩阵分解的标记时间序列方法,称为 HKMF-T,遵循将数据序列分解为平稳趋势和外部影响成分。通过将数据序列转换为其 Hankel 矩阵形式,HKMF-T 将高阶时间相关性隐含的平滑趋势建模为两个低秩矩阵的乘积,并学习相应标签序列指示的外部影响。通过对三个真实世界数据集进行的广泛实验,HKMF-T 在持续时间超过九个采样间隔的blackouts 数据中优于所有基线方法,从而显示了其有效性。

1 introduction

        恢复时间序列中缺失值的问题最近在数据挖掘和工程界受到越来越多的研究关注[1],[2]。由于各种时间序列分析 (TSA) 算法所需要的数据完整性假设与现实世界系统中不可避免的数据丢失的现实之间的不匹配,这个问题至关重要[1]。

        简而言之,缺失值恢复的任务可以描述为:给定一个长度为 T 的数据序列, ,其中是在时间 t 收集的 d 维数据向量,X中有一定缺失值,根据观察到的部分和关于 X 的额外知识来估计 X 中的缺失部分。

        虽然许多现有工作研究了随机缺失模式下的问题 [2],但本文关注的是当所有一个时期的d维数据,例如t1到t2的数据(xt∈[t1,t2]),全部丢失的情况。

         在blackout期间恢复缺失值具有挑战性,因为在blackout期间没有任何其他可用序列供参考。 因此,依赖于多个协同进化序列 [1]-[3] 之间的空间和时间相关性的现有工作在这种情况下受到限制。

        为了解决这个问题,这项工作提出了 HKMF-T 方法(HanKel Matrix Factorization for Tagged time series)。其基本思想是将一个序列分解为平滑趋势和外部影响分量后者由与数据序列关联的标签序列表示。给定标记的数据序列,HKMF-T 学习上述两个组件并在新的 Hankel 矩阵分解框架下估计缺失值。作为一项试点研究,我们主要集中讨论一维序列,因为它们形式简单,每个缺失值都代表一个blackouts的情况。

        总之,本文做出以下贡献:

• 我们提出了blackouts期间时间序列的缺失值恢复问题,并提出了一种新颖的基于矩阵分解(MF)的解决方案;

• 我们设计了Hankelization 过程,使基于MF 的方法能够通过学习序列数据之间的高阶时间相关性来处理blackouts

• 我们通过使用三个真实世界数据集将其性能与现有方法进行比较来展示 HKMF-T 的有效性。

 2 问题定义

长为T的时间序列,其中s是时刻t的d维列向量

一个指示矩阵 表示xt的第i维有数值(0表示数值丢失)

相应的标签序列表示对xt的标签 

我们的目标是估计X中的缺失值

本文研究的blackouts问题对应于 X 的整列整列缺失的情况

3 HKMF-T

3.1 汉克尔矩阵化 Hankelization

        线性代数笔记:汉克尔矩阵(Hankel matrix)_UQI-LIUWJ的博客-CSDN博客

        HKMF-T 的第一步是汉克尔矩阵化过程。 在这项工作中,我们专注于探索值之间的时间相关性,这是时间序列的内在本质。

        我们建议通过 Hankelization 技术促进基于 MF 框架的时间相关性的学习。

        更具体地说,对于一维序列,汉克尔化过程将原始序列转化为汉克尔矩阵,如图1(a)所示。通过指定p≥lb+1,lb是X中blackouts的持续时间,我们在外观上消除了所产生的p阶汉克尔矩阵中的blackouts,并使其有可能在Hp(X)而不是X上应用基于MF的方法。

        

 3.2 汉克尔矩阵分解

        HKMF-T 的下一步是执行 Hankel 矩阵分解。 基于将序列分解为平滑趋势和外部影响分量的思想,我们的方法通过让 来逼近 Hp(X),其中是两个低秩矩阵 (r ≤ p),分别代表潜在和时间嵌入。 它们的乘积 UV 对应于平滑趋势分量,包含与标签相关的外部影响。

        HKMF-T 的本质在于,Hp(X) 的每一列包含 X 中的 p 个连续元素,这些元素通过线性变换 U 与时间嵌入 V 的同一状态(列)相关联【下图中不同颜色的U中框乘以相同的V中黑色框】。而这种共享的时间状态反映了 X 中元素之间的高阶时间相关性。  

         

         为了解U,V和E,我们提出了如下的目标函数

 

 我们的求解任务可以写成:

 当 我们求得 最优的U,V,E之后,我们可以通过平均相应的UV+E中的元素来进行补全

 

 

 3.3 使用SGD计算结果

        论文中使用SGD来求解U,V,E

 

 其中

 论文中设置学习率η=0.01

 4 实验

4.1 数据集

实验使用了三个真实世界的数据集:

1)自行车共享数据集(BSD)[4]:包含731 天出租自行车的数量和相应的天气信息,分别用作观察和标签序列;

2)机动车碰撞数据集(MVCD):我们计算每天的碰撞次数得到一个包含1096个值的观测序列,以每天的天气状况作为标签序列;

3)电力消耗数据集(EPCD):通过汇总每天每分钟的电力消耗,我们得到一个由1094条记录组成的观察序列,因为除了电力消耗和日期之外没有额外的信息,我们简单地使用从日期获得的星期几作为标签。

此外,为了解决我们基于 Matlab 的算法实现中浮点数精度引起的问题,我们使用 min-max 归一化将上述数据集中的所有值归一化为 [0, 10] 范围内。

4.2 实验方法

 4.2.1 评估方法

         给定blackouts 的持续时间lb和原始序列 X,我们迭代地留下一段 作为缺失,以模拟从时间 t 开始且长度为 lb 的blackouts。对于每个段, 估计值 的均方根误差 (RMSE) 计算如下。

        

        其中分别是中的第i个元素

        然后通过 RMSE 的总和来量化整体性能,该总和是通过聚合具有 t = 1,...,T - lb + 1 的所有段的 RMSE(t, lb) 来计算的。

4.2.2 baseline

为了证明 HKMF-T 的有效性,我们将其性能与以下基线方法进行比较:

1)DynaMMo [1];

2)线性插值;

3) HKMF w/o. T,代表没有标签信息的基于汉克尔矩阵的分解。

虽然这些方法没有考虑标签序列提供的外部影响信息,但我们设计了以下两种简单的算法进行比较研究:

4)MA 标签,使用 10 天移动平均线 MA(10) 计算平滑趋势分量,并学习 通过平均观察值和 MA(10) 之间的差距来评估标签的影响。blackouts期间的缺失值是使用 MA(10) 的线性插值加上给定标签的平均影响值来估计的;

5)TagMean,简单地通过从序列的观察部分计算出的其标签的平均值来估计缺失值。

4.3 实验结果

        在本节中,我们使用 RMSE 之和评估 HKMF-T 的整体有效性,并与基线方法进行比较研究。 

         blackouts的持续时间 lb 设置为 1 到 20,以详细了解不同方法在不同  blackouts规模下的性能。

        我们根据经验将 λS、λO 和 λE 分别设置为 0.1、0.001 和 0.1,对于 lb ≥ 2,p = lb + 1,对于 lb = 1,p = 3。

        矩阵 U 和 V 的秩 r 设置为 r = p。

  

图 2 绘制了不同 lb 下不同方法的 RMSE 之和。

从图中可以看出,当 lb 很短,即 lb ≤ 2 时,包括 DynaMMo、MA Tag 和 Linear Interpolation 在内的方法强烈反映了时间时间序列的连续性 [1],实现了比提出的 HKMF-T 方法更好的性能。

当blockouts持续时间增加时,HKMF-T 开始显示其优势。更具体地说,对于 BSD、MVCD 和 EPCD 数据集,当 lb ≥ 7、lb ≥ 9 和 lb ≥ 4 时,它分别优于所有其他方法。

         总之,当所有三个数据集的 lb ≥ 9 时,提出的 HKMF-T 方法优于所有基线方法,表明它在处理blockouts方面的有效性。

5 总结

本文提出了一种新的基于 MF 的方法,称为 HKMF-T,通过将数据序列分解为平滑趋势和外部影响分量来解决在blockouts期间估计缺失值的挑战性问题。 遵循这个想法,所提出的方法首先将一维数据序列转换为汉克尔矩阵,然后通过两个低秩矩阵加上外部影响的乘积来近似。 通过对三个真实世界数据集进行的广泛实验,我们通过将其性能与最先进的基线方法进行比较来证明 HKMF-T 的有效性。

对于我们未来的工作,我们计划:1)扩展 HKMF-T 以处理高维数据和标签序列,以及 2)扩展标签序列的影响模型,以包括每个事件对数据有长期影响的情况 顺序。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts 的相关文章

随机推荐

  • tmux使用

    tmux使用 需求 ssh链接不稳定 若直接在ssh终端中运行某个长时间的程序 会被中断 使用tmux 即使ssh服务中断 tmux中的程序依旧运行着 常用命令汇总 开启一个tmux页面 tmux 开启一个tmux页面 自定义名字 tmux
  • Flutter Divider

    不设置高度 会在线的top和bottom占据一点空间 Divider thickness 1 h color Color 0xFF3D3D3E 设置height之后就正常了 上下没有间距了 Divider thickness 1 h hei
  • Docker未授权访问漏洞(www.hetianlab.com)

    什么是Docker Docker是一个开源的引擎 可以轻松的为任何应用创建一个轻量级的 可移植的 自给自足的容器 开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署 包括VMs 虚拟机 bare metal OpenStack 集
  • Uncaught TypeError: Cannot Read Property

    这是 JavaScript 开发人员最常遇到的错误 当你读取一个属性或调用一个未定义对象的方法时 Chrome 中就会报出这样的错误 导致这个错误发生的原因有很多 常见的一种情况是在渲染 UI 组件时 不正确地初始化状态 我们来看一个真实的
  • getifaddrs, freeifaddrs manual

    GETIFADDRS 3 Linux Programmer s Manual GETIFADDRS 3 NAME top getifaddrs freeifaddrs get interface addresses SYNOPSIS top
  • Java 结构化数据处理开源库 SPL

    现代Java应用架构越来越强调数据存储和处理分离 以获得更好的可维护性 可扩展性以及可移植性 比如火热的微服务就是一种典型 这种架构通常要求业务逻辑要在Java程序中实现 而不是像传统应用架构中放在数据库中 应用中的业务逻辑大都会涉及结构化
  • 专栏推介:《Hi3861网络编程实验》

    引言 本文是鸿蒙专栏 Hi3861网络编程实验 中的第一篇 从这个专栏的名称不难看出 这里面有三个关键词 鸿蒙 即 鸿蒙操作系统 Hi3861 海思生产的一款处理器 网络编程 也就是说 这个专栏就是带着大家做一些网络编程实验 实验代码是基于
  • FPGA零基础学习之Vivado-UART驱动教程

    FPGA零基础学习之Vivado UART驱动教程 本系列将带来FPGA的系统性学习 从最基本的数字电路基础开始 最详细操作步骤 最直白的言语描述 手把手的 傻瓜式 讲解 让电子 信息 通信类专业学生 初入职场小白及打算进阶提升的职业开发者
  • 测试用例--等价类划分、边界值法

    一 测试用例 案例 test case test instance 1 定义 是在测试执行之前 由测试人员编写的指导测试过程的重要文档 主要包括 用例编号 测试目的 测试步骤 用例描述 预期结果 2 介绍编写测试用例的7种方法 1 等价类划
  • js中常见的错误

    js运行报错 首现我们要先学会查看在哪里查看错误 打开页面点击鼠标右键审查元素 检查 打开控制台 然后根据上面的提示 读取 相关信息 然后读取自己哪里错了 最后寻找相应代码进行修改 1 未定义错误 Uncaught ReferenceErr
  • this指向的一个题

    妈呀啊啊啊啊啊啊啊啊啊啊啊 真的要崩溃 看视频的时候看到了一个this指向的题 想了半个小时 真的被自己蠢到 怎么会有人这么笨啊 function a xx this x xx return this var x a 5 var y a 6
  • 尝试爬取LOL英雄技能属性--01

    首先我们找到一个LOL英雄的全部展示的页面 http lol kuai8 com hero 恕瑞玛 your king has return hah hah金克丝长得不错 点击一下http lol kuai8 com hero 3 html
  • Arduino ESP32自平衡小车制作实现(不需编码器)

    1 mpu6050陀螺仪角度方向和静态平衡角度测试 说明 1 陀螺仪补偿值的计算 试时提前用calcGyroOffsets true 函数计算出 补偿值 知道mpu6050的补偿值后用setGyroOffsets 直接设置补偿值 避免每次开
  • 生成指定长度的随机字符串(数组和字母组合)

    brief getRandomCode 生成指定长度的随机字符串 数组和字母组合 param codelength 指定字符串长度 return 生成的字符串 QString getRandomCode int codelength con
  • 通过git clone批量下载huggingface模型和数据集

    目录 前言 一 配置git全局代理 可选 1 配置http或socks5代理 2 取消代理配置 二 下载步骤 问题 前言 想要下载huggingface的模型 却发现只能一个个文件下载非常不方便 又或者官方提供的api不好用或者下载不下来
  • 浏览器有哪些进程?浏览器进程,渲染进程,网络进程,渲染进程有哪些线程?

    浏览器进程 渲染进程有哪些线程 在浏览器中打开两个页面 会开启几个进程 1个浏览器进程 1个网络进程 一个GPU进程 通常一个Tab页对应一个渲染进程 但有其它情况 1 如果页面中有iframe的话 iframe也会运行在单独的进程中 2
  • 实现SSM简易商城项目的登录注册功能

    实现SSM简易商城项目的登录注册功能 项目背景介绍 在互联网时代 电商行业蓬勃发展 越来越多的人开始关注电子商务 为了实现一个简易商城项目 我们选择了SSM框架作为项目的基础架构 SSM分别代表了Spring SpringMVC和MyBat
  • 睿智的目标检测24——Keras搭建Mobilenet-SSD目标检测平台

    睿智的目标检测24 Keras搭建Mobilenet SSD目标检测平台 更新说明 学习前言 什么是SSD目标检测算法 源码下载 SSD实现思路 一 预测部分 1 主干网络介绍 2 从特征获取预测结果 3 预测结果的解码 4 在原图上进行绘
  • 【编译部署】使用Visual Studio编译Linux平台程序/动态库(远程连接)

    文章目录 1 背景 2 使用的环境 3 配置步骤 3 1 安装 Visual Studio 工具集 3 2 创建解决方案 3 3 Linux 端准备工作 3 4 测试编译和运行 5 添加附加包含和附加库 1 背景 由于日常在 Windows
  • 论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts

    ICDE 2019 0 摘要 在执行时间序列分析时 恢复时间序列中的缺失值至关重要 而本文研究的blackouts问题 即在一定时期内丢失所有数据 是最紧迫和最具挑战性的问题之一 现有的时间序列缺失值恢复方法无法正确处理这个问题 但在这项工