机器学习笔记 soft-DTW(论文笔记 A differentiable loss function for time-series)

2023-11-16

 1 soft-DTW来由

        DTW 算法通过动态规划求解了两个序列的相似度。这个过程1是离散的,不可微的。如果要将其应用作为神经网络的损失函数,这是不行的。因为神经网络通过对损失函数结果进行梯度下降的方法,更新参数,要求损失函数可微

2 符号说明 

论文“A differentiable loss function for time-series”(2017 ICML)中使用了 Soft minimum 来代替 DTW minimum

        对于两个序列,我们定义代价矩阵,其中δ是 可微代价函数(某一时刻x上的p维信息+某一时刻y上的p维信息——>一个实数值)【通常δ(·,·)可以用欧几里得距离】 

3 soft-DTW原理

        定义集合,为路径上的代价和r_{i,j}组成的集合(从(0,0)到(i,j)的最小开销路径的cost)

         如果是DTW,那么它的动态规划式子为

         如1所说,由于min是一个离散的过程,不可微,所以这导致了DTW的离散。

        于是Soft-DTW使用了连续的soft-min

         当γ=0的时候,就是DTW,否则他就是一个可微的式子

(在max函数的平滑(log-sum-exp trick)_UQI-LIUWJ的博客-CSDN博客 中,我们知道

log(\sum_{i \in [1,n]}e^{x_i})=log(\sum_{i \in [1,n],i \ne j}e^{x_i}+e^{x_j}) \approx log(e^{x_j})=x_j=max \{x_1,\dots,x_n \}

那么这里也是类似的  

min(a_1,a_2,\dots,a_n)=-max(-a_1,-a_2,\dots,-a_n)

                                  =-log (\sum_{i \in [1,n]} e^{-a_i})

                                  =-log [\sum_{i \in [1,n]} (e^\frac{​{-a_i}}{\gamma})^\gamma]

这里这篇论文做了一个近似

                                 \approx -log [\sum_{i \in [1,n]} (e^\frac{​{-a_i}}{\gamma})]^\gamma

  也就等于   了                     

 3.1 前向传播

        定义,这是一个集合,其中的每一个元素A是一个矩阵,该矩阵表示两个时间序列x和y之间的对齐矩阵(alignment matrix)

         对于一个特定的对齐矩阵,A中只有在(1,1)到(n,m)路径上的点(i,j),其a_{i,j}=1,其他点的a_{i,j}都是0。

          以DTW中出现过的图为例,那种情况下的A矩阵,在红色箭头上的(i,j),其a_{i,j}=1,其余点的a_{i,j}均为0DTW 笔记: Dynamic Time Warping 动态时间规整 (&DTW的python实现)_UQI-LIUWJ的博客-CSDN博客

         换句话说,A_{n,m}中包含了所有(1,1)到(n,m)的路径(每个路径是一个矩阵,每个矩阵只有路径上的元素为1)

        于是矩阵内积<A,Δ(x,y)>表示这条路径下的代价和(非这条路径上的点乘0,这条路径上的点乘1,再求和)

        于是,soft-dtw的目标函数为

 3.1.1 算法伪代码

如果γ=0的时候,也就退化为了DTW,这里不同的是,我们需要关注γ>0的情况

 

3.2 反向传播

        soft-DTW的目的是为了计算时间序列x和时间序列y之间的动态扭曲距离,y是目标序列的话,我们反向传播计算的是对时间序列x的梯度,也即

         

        通过链式法则,我们有

        这里的分子和分母都是矩阵,所以线性代数笔记:标量、向量、矩阵求导_UQI-LIUWJ的博客-CSDN博客

        

 

也就是在我们的问题中,\frac{\partial \Lambda_i}{\partial x_j}都是一个p×m维矩阵,那么整体上是一个np×nm的矩阵(记

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习笔记 soft-DTW(论文笔记 A differentiable loss function for time-series) 的相关文章

随机推荐

  • 基于python多光谱遥感数据处理、图像分类、定量评估及机器学习方法应用

    普通数码相机记录了红 绿 蓝三种波长的光 多光谱成像技术除了记录这三种波长光之外 还可以记录其他波长 例如 近红外 热红外等 光的信息 与昂贵 不易获取的高光谱 高空间分辨率卫星数据相比 中等分辨率的多光谱卫星数据可以免费下载获取 例如 l
  • android pull 解析xml

    Pull简介 1 常见的XML解析方式有三种 DOM SAX Pull Android系统中推荐使用Pull 2 Pull解析器是一个开源的Java项目 Android系统内部解析XML文件均为此种方式 也可用于JavaEE项目 3 And
  • Python Pymem 游戏内存基址读取修改 - 获取游戏DLL模块基址

    运行环境 python3 9 0 64位 安装pymem pip install pymem Pymem 的文档 https pymem readthedocs io en latest 读取游戏模块DLL基址 完整代码 import py
  • Java NIO框架Mina、Netty、Grizzly介绍与对比

    目录 Java NIO框架MinaNettyGrizzly介绍与对比 Mina Netty Grizzly 结语 Java NIO框架Mina Netty Grizzly介绍与对比 原文链接 http www 24xuexi com w 2
  • 一文带你沉浸式感受黑马实战项目研发过程

    我们必须拒绝Demo式项目 拒绝技术堆叠式项目 要让学生学到真本领 在传智研究院严格的项目课程新标准下 黑马JavaEE学科再添真实企业级新项目 天机学堂 历时近1年才能上线的项目课程 背后又藏着哪些让学生高薪 理想就业的秘密 一文带你揭晓
  • 变化多端 – 多种纯CSS的HTML表格设计

    介绍 在HTML中 Table节点由于其层层嵌套的节点结构 一度名声很臭 且一度被呼吁用DIV CSS取而代之 但在实际项目开发中 一碰到规整的数据显示 不知不觉又会用起它 可见其生命力之顽强 这儿就探讨下几种不同的通过CSS实现的Tabl
  • PCL RANSAC分割提取多个空间圆

    目录 一 概述 二 代码实现 三 结果展示 1 原始数据 2 提取结果 四 测试数据 本文由CSDN点云侠原创 原文链接 如果你不是在点云侠的博客中看到该文章 那么此处便是不要脸的爬虫 一 概述 使用PCL分割提取多个空间圆 其核心原理仍然
  • Rancher安装、部署、使用

    1 搭建rancher平台 1 通过实训平台进入到操作系统界面 在 后输入vi etc sysconfig docker命令 编辑配置文件 示例代码如下 root xxx home vi etc sysconfig docker 按i 小写
  • 刷脸免单打折领红包带动消费者进店二次消费

    刷脸自动扣款 效率高 耗时少 避免消费者长时间排队等待 不需要拿出手机 打开微信 打开扫一扫或者收付款等一系类繁杂的动作 省去了记密码 输密码的麻烦 实现了人与钱包或银行卡的合二为一 消费者方便 也更愿意来您家消费 手机没电 不拿手机也能付
  • C精华练习系列(2)

    C 练习实例6 题目 用 号输出字母C的图案 程序分析 可先用 号在纸上写出字母C 再分行输出 参考代码为 include
  • 可重入锁简单理解

    可重入锁 指的是以线程为单位 当一个线程获取对象锁之后 这个线程可以再次获取本对象上的锁 而其他的线程是不可以的 synchronized 和 ReentrantLock 都是可重入锁 可重入锁的意义之一在于防止死锁 实现原理实现是通过为每
  • 照片怎样变漫画图片?建议收藏这些方法

    小伙伴们平时喜欢在社交平台上 发布一些照片的动态吗 那有没有发现别人的一些照片动态很好看 有漫画照片 文字照片 边框照片等多种多样的效果 有小伙伴羡慕别的照片问什么这么多样吗 其实你们也可以做到的 只需要使用软件就可以帮助我们完成这些照片编
  • JPM Coin 三部曲 (中) - 摩根大通为何青睐 Quorum 区块链

    本篇是三部曲的第二部分 聊一聊 JPM coin 背后的区块链网络 Quorum 详解其特点 共识机制 及其如何满足传统银行业的商业需求 Quorum 被认为是 企业级以太坊 从2016年起由摩根大通银行启动的开源项目 https gith
  • 为什么有两台计算机WINDOWS,你有两台运行Windows7的计算机分别命名为Computer1和Computer2。这两台计算机都是一个活动目录域的成员,两台计算机上都启用了Windows远程管理...

    YourcompanyhastwodomaincontrollersthatareconfiguredasinternalDNSservers AllzonesontheDNSserversareActiveDirectory integr
  • Git没有权限

    Git 没有权限 出现下面图片错误的 请在系统盘 C盘 找到 用户文件夹 进入后 找到管理员文件夹下有个 gitconfig 删除掉 然后在用命令进行克隆链接 git clone http XXXXX git 自动会跳出让你输入Git用户名
  • Python的学习过程中not enough values to unpack (expected 2, got 1)解决方案

    这是一篇在自学过程中debug的笔记 愿我们一同进步 问题描述 跟着小甲鱼一起学习Python 在学习到 文件 的时候有一个代码任务 内容是根据两个人物之间的三段对话对话进行分割提取操作 运行时报错 主要报错为not enough valu
  • 程序员到底在恐慌什么?

    点击上方 iOS开发 选择 置顶公众号 关键时刻 第一时间送达 程序员们会觉得恐慌么 有时候我会 或者说 现在也会 这种恐慌大概是在上学的时候就有了 上学的时候我不知道怎么入门 去书店里看书 C VisualBasic Java C C P
  • 智慧企业转型升级蓝图 附下载地址

    2020年的猛烈震荡让各行业面临的挑战急剧升级 企业经营更是险中求胜 各行业都在全力转型以谋求突破 对于许多企业来说 数字化重塑不再是种选择 而是种必然 日前 IBM 与各行业专家 首次携手共创了 共创共赢 聚智前行 中国智慧企业转型升级蓝
  • windows忘记mysql5.7密码修改密码

    1 打开第一个cmd窗口执行 net stop mysql57 2 在第一个cmd窗口执行 mysqld defaults file C ProgramData MySQL MySQL Server 5 7 my ini skip gran
  • 机器学习笔记 soft-DTW(论文笔记 A differentiable loss function for time-series)

    1 soft DTW来由 DTW 算法通过动态规划求解了两个序列的相似度 这个过程1是离散的 不可微的 如果要将其应用作为神经网络的损失函数 这是不行的 因为神经网络通过对损失函数结果进行梯度下降的方法 更新参数 要求损失函数可微 2 符号