论文笔记:DEEP DECLARATIVE DYNAMIC TIME WARPING FOREND-TO-END LEARNING OF ALIGNMENT PATHS

2023-11-14

个人感觉,可微DTW的主要优点作为一个损失函数,可以进行梯度反向传播,如果目标只是两个时间序列的相似度,可能不太需要?

1 Intro

1.1 背景

DTW 笔记: Dynamic Time Warping 动态时间规整 (&DTW的python实现) 【DDTW,WDTW】_UQI-LIUWJ的博客-CSDN博客

1.2 本文思路

  • 论文提出一种基于深度隐式层的新型可微DTW方法,名为DecDTW
    • 采用之前论文提出的DTW问题的连续时间公式(GDTW),作为一个受不等式约束的非线性规划(non-linear program,NLP)
    • 使用深度声明式网络(DDN)框架来定义DTW层的前向和后向传播
      • 前向传播涉及求解最优(连续时间)规整路径
        • 类似于原始DTW算法的自定义动态规划方法
      • 后向传播通过在前向传播中计算的解来导出梯度,使用隐式微分
  • ——>DecDTW在端到端学习设置中更有效、更高效地利用对齐路径信息

2 论文模型

2.1 Preliminary

2.1.1 时间变化信号

  • x: [0,1] \rightarrow R^d是一个随时间变化的矢量值函数
    • 这里的[0,1]是 左闭右闭的区间
    • 这个函数表示[0,1]的任意时刻,都是d维的观测信号
    • 信号通常假设是可微的(至少是分段平滑的)
    • 用一组观测时间 t\in [0,1]^N (0=t_1<t_2<\cdots<t_N \le 1)观测这个时变信号,得到相应的观察X=\{x_1,\cdots,x_N\}\in R^{N \times d}
      • 【这个就是我们常见的时间序列】,只不过论文将时间序列的时间缩放到[0,1]

2.1.2 时间变形函数

  • 一个时间变形函数\phi: [0,1] \rightarrow [0,1]定义了一个信号中的时间到另一个信号中的时间的对应关系
  • 变形函数通常带有约束条件
    • 变形函数是非递减的
    • x \circ \phi记为x的时间变形版本

2.1.3 GDTW(广义动态时间规整)

  • GDTW问题可以如下形式化
    • 给定两个时变信号x和y,找到一个变形函数ϕ,使得y ◦ ϕ ≈ x。
    • 换句话说,希望通过扭曲y中的时间来使信号x和y接近。
  • 在实验中发现,对于实际对齐任务,GDTW通常优于传统DTW。
    • 论文将这归因于前者能够在任意观察之间进行对齐,从而实现更准确的对齐。

2.2 GDTW 优化方程

  • GDTW 可以被明确地定义为一个受约束的优化问题,其中决策变量是时间变形函数Φ,输入参数是信号 x 和 y。
    • 目标函数 f 可以分解为与特征误差有关的信号损失 L 和变形正则项 R
    • 其中λ≥0 是一个超参数,用于控制正则化的强度。

  • 此外,通常会对 ϕ 施加一些可能随时间变化的约束条件
  • 论文将这些约束条件分为局部约束和全局约束
    • 局部约束限制了变形函数的时间导数
      • 随着时间的推移,变形函数的值不能减少,只能保持不变或者增加
    • 全局约束限制了变形函数的值

图 3 说明了如何使用约束来改变 GDTW 返回的结果变形。

2.2.1 损失函数L

  •          L:R^d \rightarrow R 是一个两次可微的惩罚函数。
    • 论文使用L(\cdot) \triangleq \Vert \cdot \Vert_2^2
    • 其他的惩罚函数(例如,1-范数,Huber 损失)也可以使用。
      • Huber loss:
  • L量化了两个时间序列在进行时间变形后的相似度或差异度
    • 通过最小化这个信号损失,能够找到一个更为准确地将两个时间序列对齐的时间变形函数
    • 这在一系列的实际应用中是非常有用的,例如语音识别、动作捕捉等

2.2.2 Warp 正则化

  • R:R→R 是一个关于从单位弯曲(ϕ′(t)=1)偏离的惩罚函数。
    • 论文使用二次惩罚R(u)=u^2
  • 这个正则化项惩罚了具有大跳变的弯曲函数,一个足够高的 λ 会使 ϕ 接近单位函数。
  • 正则化对于防止由GDTW(以及更一般地说,DTW)产生的嘈杂和/或病态弯曲至关重要,并且可能极大地影响对齐的准确性。

3  GDTW的简化 非线性规划

  • 在这一节中,对ϕ提供了简化的假设。

  • 将方程1中的无限维变分问题简化为有限维的非线性规划(NLP)问题。
    • 这是通过首先假设ϕ是分段线性的来实现的
      • 允许它完全由其在m个节点 t\in [0,1]^m (0=t_1<t_2<\cdots<t_m \le 1)上的值来定义。
      • 节点可以均匀分布,或者只是y的观测时间
      • 形式上,分段线性性允许我们将ϕ表示为\phi=(\phi_1,\cdots,\phi_m) \in R^m, \phi_i=\phi(t_i)
  • 另一个简化方程1为非线性规划(NLP)的关键假设是用梯形法则给出的数值近似来替换信号损失和弯曲正则化中的连续积分。

4 DecDTW 前向传播

  •  DecDTW 层编码了一个隐函数\phi^{\star}=DecDTW(x,y,\lambda,s^{min},s^{max},b^{min},b^{max})
    • 该函数根据输入信号x,y,正则化参数 λ 和约束s^{min}=\{s_i^{min}\}_{i=1}^m,s^{max}=\{s_i^{max}\}_{i=1}^m,b^{min}=\{b_i^{min}\}_{i=1}^m,b^{max}=\{b_i^{max}\}_{i=1}^m 输出最优的弯曲路径 \phi^{\star}
    • 该弯曲路径 \phi^{\star}可以用于下游损失J(\phi^\star)
      • 预测弯曲 \phi^{\star}与=真实弯曲 \phi^{gt}间的误差
  • DecDTW 的前向传播解决了由方程 4 给出的 GDTW 问题,给定输入参数。我们使用动态规划(DP)方法解决方程 4,而不是调用通用的 NLP 求解器
    • ——>这样做是为了最小化计算时间

  •  求解器的工作机制如下

    • 对于每一个 i,我们可以将 ϕi​ 离散化为 M 个值\{\phi_{i,j}\}_{j=1}^M

    • 这些值在全局界限b_i^{min},b_i^{max}之间均匀分布

    • ——>构成一个有mM个点的图

      • 时序相邻的节点(\phi_{i-1,j},\phi_{i,k})用边连接

      • 总共(m-1)\times M^2条边

      • 每个节点的成本就是公式5的后一项

      • 边成本就是

      • 违反局部约束s_i^{min},s_i^{max}的边被赋予 ∞ 的成本

    • ——>新的离散优化问题的全局最小值对应于图中的最小成本路径,并使用动态规划在 O(mM^2) 的时间复杂度下解决

  • 一次求解完之后,对离散化和解进行迭代细化

5 DecDTW 反向传播

  • 前向传播中获得的=ϕ⋆ 相对于输入z=(x,y,\lambda,s^{min},s^{max},b^{min},b^{max})的梯度

  • 与现有的可微分 DTW 方法不同,DecDTW 允许正则化权重 λ 和约束hi成为深度网络中的可学习参数

    • \tilde{h}=[h_1,cdots,h_p],每一个hi表示公式4中的一个不等式

    • 根据 Gould et al. (2021)有

 6 实验

mingu6/declarativedtw: Reference implementation of DecDTW in PyTorch (ICLR 2023) (github.com)

6.1 乐谱对齐

  • 第一个实验涉及音频与乐谱的对齐,这是音乐信息检索中的一个基础问题,应用范围从乐谱跟随到音乐转录。
  • 该任务的目标是将一段音乐表演的音频录音与其对应的乐谱/简谱进行对齐。
  • 论文使用 Thickstun 等人(2020年)提出的数学形式化方法来评估预测的音频到乐谱的对齐与一个基准对齐,我们现在将对此进行总结。

时间平均误差(TimeErr)和时间标准偏差(TimeDev),具体地给出如下:

6.2 视觉位置识别

  • 移动机器人和自动驾驶汽车导航系统的重要组成部分

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文笔记:DEEP DECLARATIVE DYNAMIC TIME WARPING FOREND-TO-END LEARNING OF ALIGNMENT PATHS 的相关文章

  • 幼儿园里面有科技设备么

    现代社会 幼儿园是孩子们是快乐且有意义的生涯起点 他们从这里认识世间万物 格物斯坦心系每位的热爱人工智能的孩子们 祖国的未来就靠你们了 幼儿园的核心工作是保证幼儿健康成长 同时需要为幼儿提供良好的学习和生活环境 随着现代技术正朝着智能化的方

随机推荐

  • Rocketmq Filter 消息过滤(TAGS、SQL92)原理详解 & 源码解析

    1 背景 1 1 Rocketmq 支持的过滤方式 Rocketmq 作为金融级的业务消息中间件 拥有强大的消息过滤能力 其支持多种消息过滤方式 表达式过滤 通过设置过滤表达式的方式进行过滤 TAG 根据消息的 tag 进行过滤 SQL92
  • 【 ROS 入门 2】tf 入门学习教程总结(缺少系统整理)

    ROS官网 tf 教程 http wiki ros org tf Tutorials 参考博客 三维旋转矩阵 包括任意轴的通用旋转矩阵 Euler角 单位四元数 的计算 视觉SLAM中的数学基础 第二篇 四元数 ROS学习 轻松使用tf t
  • PIL,cv2,plt的使用与区别

    PIL cv2 plt的使用与区别 1 比较三者的打开图片 显示图片 打开的图片的类型 2 图像类型的转换 PIL与numpy 3 PIL cv2 plt混用 3 1 cv2 plt读PIL打开的图像 3 2 PIL plt读cv2打开的图
  • https 是如何保护数据传输的

    为什么需要 https https 是 http ssl 也就是加密的 http 数据传输 我们都知道 https 的最主要的作用在于保证数据的安全 但具体来说 https 的安全性主要体现在以下两点 保证数据传输不被中间人盗用和信息的泄漏
  • GitHub开源协议

    开源协议 有名开源许可证 很多 经过Open Source Initiative组织 OSI批准 通过批准的开源协议目前有58种 常见的开源许可证包括 MIT MIT License GPL GNU General Public Licen
  • 预览word文件,支持下载(微软提供)

    预览打印 file 文件对象 url 接口地址 filepath 文件路径 filetype 文件类型 PS 兼容docx pdf后缀文件 export const filePreview file gt if file filepath
  • 三层架构:软件设计架构

    1 界面层 表示层 用户看的得界面 用户可以通过界面上的组件和服务器进行交互 2 业务逻辑层 处理业务逻辑的 3 数据访问层 操作数据存储文件
  • ---复位现象---GD32 MCU插入SD卡MCU立刻复位

    问题描述 程序运行正常 但是在插入SD卡的瞬间 单片机硬件复位 程序重新运行 之后状态一切正常 可以读取到SD卡 如果上电前插入SD卡 则一切正常 原因 使用示波器测试MCU电源 在SD卡插入瞬间 MCU电源电压跌落到2 5V以下 正常GD
  • 重载输入<<,输出>>,前置和后置++,--运算符

    由于系统给定的输入 lt lt 输出 gt gt 前置和后置 运算符只能处理类似于int float等系统已经定义好的类型的变量 为了能对我们自己定义的类的对象也能进行这些操作 我们就要重载这些运算符 定义一个复数类的对象 class Co
  • 基于OPENCV4的火焰烟雾检测

    现在目标检测主要采用深度学习训练模型 然后采用OPENCV4调用 烟雾火焰检测 采用CAFFE训练一个模型 采用OPENCV4调用 C PYTHON都可以调用 可以加Q 2830025146进行讨论 效果测试在 https download
  • 前端安全

    有哪些可能引起前端安全的问题 跨站脚本攻击 Cross Site Scripting XSS 一种代码注入方式 为了与 CSS 区分所以被称为 XSS 早期常见于网络论坛 起因是网站没有对用户的输入进行严格的限制 使得攻击者可以将脚本上传到
  • 行人重识别数据集汇总

    最近一段时间在做行人重识别方向的研究 行人重识别 Person Re Identification 作为图像识别领域的一个分支 在实际生活中具有极其重要的意义 目前 城市里的用于公共治安领域的摄像头已经大量部署 几乎到了几十米到几百米一个覆
  • Android 11(targetSdkVersion 30)不能获得存储权限的问题和适配指南

    虽然原文说的比较详细了 但我补充一两点 也为了方便自己总结和避坑 Android权限大致可分为三类 普通权限 只需要在清单文件中注册即可 危险权限 需要在代码中动态申请 以弹系统 Dialog 的形式进行请求 特殊权限 需要在代码中动态申请
  • 苹果新iPad创新乏力,中国发售遇冷失宠

    7月20日清晨 北京三里屯苹果店外有点冷清 十几个顾客在门口安静地排着队 曾经活跃的黄牛党没了踪影 守候在一旁的工作人员正在拆除原本打算维持秩序的护栏 如果不是店面上巨大的苹果标志 你恐怕很难把这个场景和苹果新品首发联系在一起 要知道在半年
  • 测试用例入门(三)-使用边界值分析法编写测试用例

    在 软件测试 一书中是这样描述边界值分析法的作用 如果在悬崖峭壁边可以自信 安全的行走而不掉下去 平地就不在话下了 本篇文章中的演示代码均由Python编写 目录 一 边界值分析法概述 二 边界条件的判断 三 边界两侧的判断 四 次边界条件
  • 输入华氏温度输出摄氏温度

    华氏温度转化为摄氏温度 c 5 9 f 32 数据 输入华氏温度 f 输出摄氏温度 c f int input 请输入华氏度 c f 32 5 9 print 6 2f华氏度对应的摄氏度为 6 2f f c 中间出过一点小问题 比如第一行双
  • input标签的类型

    今天学习突然想着input有哪些类型呢 然后就查了下资料 记录一下 1 文本框 type text 2 密码框 type password 3 单选框 type radio 4 复选框 type checkbox 5 图片上传 type f
  • linux切换用户时报错 this account is currently not available

    linux切换用户时报错 this account is currently not available 在安装完redis之后系统创建了一个名叫redis用户 但切换到这个用户的时候却报了错 this account is current
  • 网站怎么创建?

    网站怎么创建 现在很多公司企业都会有自己的网站 即使是没有网站的公司也抓紧时间纷纷入局 希望能在互联网的流量中分到一杯羹 那么网站怎么创建呢 下面给大家简单说一说 网站怎么创建步骤1 首先我们准备好一个域名 一个网站需要有域名才能访问 我们
  • 论文笔记:DEEP DECLARATIVE DYNAMIC TIME WARPING FOREND-TO-END LEARNING OF ALIGNMENT PATHS

    个人感觉 可微DTW的主要优点作为一个损失函数 可以进行梯度反向传播 如果目标只是两个时间序列的相似度 可能不太需要 1 Intro 1 1 背景 DTW 笔记 Dynamic Time Warping 动态时间规整 DTW的python实