论文阅读:DSformer:A Double Sampling Transformer for Multivariate Time Series Long-term Prediction

2023-12-19

DSformer:A Double Sampling Transformer for Multivariate Time Series Long-term Prediction

一篇发表在CIKM 2023上的基于transformer的时间序列预测模型

摘要

多变量长期预测任务 旨在预测未来较长一段时间的数据的变化,从而为决策提供参考。当前模型对时间序列的以下三个特征利用还不充分:全局信息、局部信息、变量相关性。由此文章提出DSformer(double sampling transformer)模型,该模型包含了double sampling(DS) block和 temporal variable attentioon(TVA) block。DS 块使用了下采样和片段采样将原始序列转换成特征向量,由此提取上面提到的全局信息和局部信息,TVA块利用时间注意力和变量注意力来从不同的维度挖掘和提取特征向量中的关键信息。此外,TVA块是基于并行实现的。这些信息汇总后传递给decoder来实现多变量长期预测。最后9个真实世界数据集上的实验结果表明,DSformer比当前的8个基线模型表现更好。

方法

将以下特征应用到时间序列分析任务中:变量相关性a、全局信息(周期性)b、局部信息c、变量相关性

这个和PatchTST得出的结论完全不同,PatchTST提出通道独立性,DSformer则提出变量相关性(其实就是通道)
模型结构
创新型提出了三个组件,分别对应全局信息、局部信息、变量相关性
1.down sampling:下采样,采样间隔是i的话,形成i个等长的序列
2.piecewise sampling,片段采样,采样的两个片段之间有重叠
3.TVA,temporal attention and variable attention,时间注意力和变量相关性注意力
在这里插入图片描述

实验

消融实验,探究了移除下采样、移除片段采样、移除两种采样、移除时间注意力、移除变量注意力。消融实验上差异最明显的还是时间注意力,这和LLM4TS的实验结论是一致的,也很好理解,对于时间序列来说,时序注意力的重要性。
在这里插入图片描述

DSformer在对比实验里面也对比了PatchTST,但数据不是来自patchTST的论文,因为DSformer的实验的时间序列lookback windows长度和PatchTST设置不同(DSformer:96,PatchTST:336),可能作者又在自己的实验设置下重新跑实验了。
(相同设置pk不过人家,就改实验设置,也是一种智慧)

实验复现

本来想复现实验来着,但是找到的代码只包含了模型文件,没有具体地实验配置文件,就简单地看了看代码,工作量减减

下采样:

 def down_sampling(data,n):
        result = 0.0
        for i in range(n):
            line = data[:,:,i::n,:]
            if i == 0:
                result = line
            else:
                result = torch.cat([result, line], dim=3)
        result = result.transpose(2, 3)
        return result

片段采样

    def Interval_sample(data,n):
        result = 0.0
        data_len = data.shape[2] // n
        for i in range(n):
            line = data[:,:,data_len*i:data_len*(i+1),:]
            if i == 0:
                result = line
            else:
                result = torch.cat([result, line], dim=3)
        result = result.transpose(2, 3)
        return result
self.query = nn.Conv1d(in_channels=dim_input,out_channels=dim_input,kernel_size=1)
        self.key = nn.Conv1d(in_channels=dim_input,out_channels=dim_input,kernel_size=1)
        self.value = nn.Conv1d(in_channels=dim_input,out_channels=dim_input,kernel_size=1)
        self.laynorm = nn.LayerNorm([dim_input])

代码中的 nn.Conv1d 在这样的设置下实际上表示了一个 “1x1 卷积”。1x1卷积在一维情况下实际上类似于 对每个时间步的特征进行线性变换 ,没有涉及实质性的空间相邻关系。这种操作通常用于调整特征图的深度或进行特征间的线性组合。这种卷积操作不会改变特征图的长度,只是在特征维度上进行组合和调整。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读:DSformer:A Double Sampling Transformer for Multivariate Time Series Long-term Prediction 的相关文章

随机推荐

  • 什么是过载?什么是过流?

    目录 过载是什么 过流是什么 过载保护 过电流保护 短路保护 过载是什么 在电网或者是我们的日常生活中所用到的每一个电气设备都会有一个额定功率 当设备的功率比额定功率高的时候我们称为过载 同样地 我们将对这种超过额定功率的保护称为过载保护
  • 外包干了5个月,技术退步太明显了。。。。。

    先说一下自己的情况 本科生生 18年通过校招进入武汉某软件公司 干了差不多4年的功能测试 今年国庆 感觉自己不能够在这样下去了 长时间呆在一个舒适的环境会让一个人堕落 而我已经在一个企业干了5个月的功能测试 已经让我变得不思进取 谈了2年的
  • 说一下 jvm 有哪些垃圾回收算法?

    说一下 jvm 有哪些垃圾回收算法 一 对象是否已死算法 1 引用计数器算法 2 可达性分析算法 二 GC算法 1 标记清除算法 如果对象被标记后进行清除 会带来一个新的问题 内存碎片化 如果下次有比较大的对象实例需要在堆上分配较大的内存空
  • JMeter如何从数据库中获取数据并作为变量使用?

    前言 JMeter 如何从数据库中获取数据并作为变量使用 这在我们使用 JMeter 做 接口测试 压力测试 时经常碰到 今天通过两个示例 实现MySQL数据库的查询结果的 单值引用 和 多值引用 进行说明 这里虽然以MySQL数据库做说明
  • mybatis.interceptor.exception.SqLValidateException:Ilegal SQL::......

    现象 描述 执行 SQL 没问题 应用代码报错 mybatis interceptor exception SqLValidateException Ilegal SQL SELECT voucherNo FROM voucher ORDE
  • Java18都在路上了,你还在用Java8吗?

    Java18都在路上了 你还在用Java8吗 在开始前我有一些资料 是我根据自己从业十年经验 熬夜搞了几个通宵 精心整理了一份 Java的资料从专业入门到高级教程 工具包 点个关注 全部无偿共享给大家 在评论区回复 888 之后私信回复 8
  • 利用阿里云的尖端数据库解决方案增强游戏数据管理

    在快节奏和动态的游戏世界中 对于努力为玩家提供无缝体验的公司来说 管理大量数据是一项关键挑战 阿里云是亚太地区的主要参与者 也是全球公认的运营数据库管理系统领导者 提供量身定制的创新解决方案 以应对游戏公司面临的独特数据管理挑战 这篇博客探
  • 大四复习:深入浅出解释拓扑排序

    我在大二学习拓扑排序的时候 不是很明白 现在已经大四 抽时间复习一下拓扑排序 什么是拓扑排序 如何实现拓扑排序 拓扑排序的拓展 什么是拓扑排序 首先拓扑排序的定义如下 拓扑排序是一种对有向无环图的顶点进行排序的方法 它的主要目的是产生一个顶
  • 自动驾驶多传感器融合学习笔记

    目录 BevFusion liar radar BevFusion BevFusion是一种多传感器融合技术 它可以将来自不同传感器 如LiDAR和相机 的数据融合到一个统一的BEV表示中 BevFusion的优点在于它能够结合多种传感器的
  • 面对众多知识付费平台,如何做出明智的选择?

    明理信息科技知识付费平台 在当今的知识付费市场中 用户面临的选择越来越多 如何从众多知识付费平台中正确选择属于自己的平台呢 下面 我们将为您介绍明理信息科技知识付费平台相比同行的优势 帮助您做出明智的选择 一 创新的技术架构 高效稳定 相比
  • 不会做项目惨遭部门领导批评,连刷35天分布式小册轻松拿下

    互联网发展到今天 用户数量越来越多 产生的数据规模也越来越大 应用系统必须支持高并发访问和海量数据处理的需求 对比集中式架构 分布式系统由于具有可扩展性 可以动态扩展服务和存储节点 使用廉价的机器构建高性能的服务 更适合如今的互联网业务 分
  • 人工智能125个常用名词解释

    1 什么是人工智能 人工智能 Artificial Intelligence 简称AI 是指计算机系统通过模拟人类的思维和行为来完成特定任务的技术和方法 人工智能的研究涉及多个学科 包括计算机科学 数学 心理学 哲学等领域 人工智能可以被分
  • 超快速人像磨皮软件/插件:SkinFiner 4

    SkinFiner 4是一款很好用的磨皮插件 这款插件可以帮助摄影师和后期制作人员快速 准确地修饰人像皮肤 提高图像质量 它具有操作简单 使用方便 处理速度快的特点 能够将繁琐的手动磨皮工作解放出来 以最简单和最快捷的方式磨皮和改善皮肤质感
  • WordPress主题 响应式个人博客主题Kratos源码

    Kratos 是一款专注于用户阅读体验的响应式 WordPress 主题 整体布局简洁大方 针对资源加载进行了优化 Kratos主题基于Bootstrap和Font Awesome的WordPress一个干净 简单且响应迅速的博客主题 Vt
  • PCB问题:Dummy NetPoint on shape:To suppress in report attach OK UNASSIGNED Shape解决方法

    问题 Total shapes not on a net To suppress in report attach OK UMASSIGMED SHAFE pr operty to shape 该问题一般都是在删除铜或者修铜时留下的 解决方
  • 深度学习中的KL散度

    1 KL散度概述 KL散度 Kullback Leibler Divergence 也称为相对熵 是信息论中的一个概念 用于衡量两个概率分布间的差异 它起源于统计学家Kullback和Leibler的工作 它的本质是衡量在用一个分布来近似另
  • 计算机毕设项目分享(含算法) 源码+论文(一)

    1 基于opencv的图像增强算法系统 直方图均衡化是通过调整图像的灰阶分布 使得在0 255灰阶上的分布更加均衡 提高了图像的对比度 达到改善图像主观视觉效果的目的 对比度较低的图像适合使用直方图均衡化方法来增强图像细节 使用中心为5的8
  • Gateway网关-路由的过滤器配置

    目录 一 路由过滤器 GatewayFilter 1 1 过滤器工厂GatewayFilterFactory 1 2 案例给所有进入userservice的请求添加一个请求头 Truth itcastis freaking awesome
  • 用一个简单的例子教你如何 自定义ASP.NET Core 中间件(一)

    提起中间件大家一定不陌生 我们也用过 NET core很多很好用的中间件 但是如何自己写一个中间件呢 可能大部分同学不清楚怎么写 我之前也不会 看了微软官方文档 ASP NET Core 中间件 感觉讲的也不是很清楚 下面就用一个简单的例子
  • 论文阅读:DSformer:A Double Sampling Transformer for Multivariate Time Series Long-term Prediction

    DSformer A Double Sampling Transformer for Multivariate Time Series Long term Prediction 一篇发表在CIKM 2023上的基于transformer的时