论文笔记：DEEP DECLARATIVE DYNAMIC TIME WARPING FOREND-TO-END LEARNING OF ALIGNMENT PATHS

2023-11-14

个人感觉，可微DTW的主要优点作为一个损失函数，可以进行梯度反向传播，如果目标只是两个时间序列的相似度，可能不太需要？

1 Intro

1.1 背景

DTW 笔记： Dynamic Time Warping 动态时间规整（&DTW的python实现）【DDTW，WDTW】_UQI-LIUWJ的博客-CSDN博客

近年来，可微DTW被广泛地研究
- Soft-DTW使用技巧替代min ，使之可微
  - 机器学习笔记 soft-DTW（论文笔记 A differentiable loss function for time-series）_UQI-LIUWJ的博客-CSDN博客
- Learning Discriminative Prototypes with Dynamic Time Warping （CVPR 2021）观察到在固定warping路径后可以进行微分

1.2 本文思路

论文提出一种基于深度隐式层的新型可微DTW方法，名为DecDTW
- 采用之前论文提出的DTW问题的连续时间公式（GDTW），作为一个受不等式约束的非线性规划（non-linear program，NLP）
- 使用深度声明式网络（DDN）框架来定义DTW层的前向和后向传播
  - 前向传播涉及求解最优（连续时间）规整路径
    - 类似于原始DTW算法的自定义动态规划方法
  - 后向传播通过在前向传播中计算的解来导出梯度，使用隐式微分
——>DecDTW在端到端学习设置中更有效、更高效地利用对齐路径信息

2 论文模型

2.1 Preliminary

2.1.1 时间变化信号

是一个随时间变化的矢量值函数
- 这里的[0,1]是左闭右闭的区间
- 这个函数表示[0,1]的任意时刻，都是d维的观测信号
- 信号通常假设是可微的（至少是分段平滑的）
- 用一组观测时间观测这个时变信号，得到相应的观察
  - 【这个就是我们常见的时间序列】，只不过论文将时间序列的时间缩放到[0,1]

2.1.2 时间变形函数

一个时间变形函数 $\phi: [0,1] \rightarrow [0,1]$ 定义了一个信号中的时间到另一个信号中的时间的对应关系
变形函数通常带有约束条件
- 变形函数是非递减的
- $x \circ \phi$ 记为x的时间变形版本

2.1.3 GDTW（广义动态时间规整）

GDTW问题可以如下形式化
- 给定两个时变信号x和y，找到一个变形函数ϕ，使得y ◦ ϕ ≈ x。
- 换句话说，希望通过扭曲y中的时间来使信号x和y接近。
在实验中发现，对于实际对齐任务，GDTW通常优于传统DTW。
- 论文将这归因于前者能够在任意观察之间进行对齐，从而实现更准确的对齐。

2.2 GDTW 优化方程

GDTW 可以被明确地定义为一个受约束的优化问题，其中决策变量是时间变形函数Φ，输入参数是信号 x 和 y。
- 目标函数 f 可以分解为与特征误差有关的信号损失 L 和变形正则项 R
- 其中λ≥0 是一个超参数，用于控制正则化的强度。

此外，通常会对 ϕ 施加一些可能随时间变化的约束条件
论文将这些约束条件分为局部约束和全局约束
- 局部约束限制了变形函数的时间导数
  - 随着时间的推移，变形函数的值不能减少，只能保持不变或者增加
- 全局约束限制了变形函数的值

图 3 说明了如何使用约束来改变 GDTW 返回的结果变形。

2.2.1 损失函数L

是一个两次可微的惩罚函数。
- 论文使用
- 其他的惩罚函数（例如，1-范数，Huber 损失）也可以使用。
  - Huber loss：
L量化了两个时间序列在进行时间变形后的相似度或差异度
- 通过最小化这个信号损失，能够找到一个更为准确地将两个时间序列对齐的时间变形函数
- 这在一系列的实际应用中是非常有用的，例如语音识别、动作捕捉等

2.2.2 Warp 正则化

R:R→R 是一个关于从单位弯曲(ϕ′(t)=1)偏离的惩罚函数。
- 论文使用二次惩罚 $R(u)=u^2$ 。
这个正则化项惩罚了具有大跳变的弯曲函数，一个足够高的 λ 会使 ϕ 接近单位函数。
正则化对于防止由GDTW（以及更一般地说，DTW）产生的嘈杂和/或病态弯曲至关重要，并且可能极大地影响对齐的准确性。

3 GDTW的简化非线性规划

在这一节中，对ϕ提供了简化的假设。

将方程1中的无限维变分问题简化为有限维的非线性规划（NLP）问题。
- 这是通过首先假设ϕ是分段线性的来实现的
  - 允许它完全由其在m个节点 $t\in [0,1]^m (0=t_1<t_2<\cdots<t_m \le 1)$ 上的值来定义。
  - 节点可以均匀分布，或者只是y的观测时间
  - 形式上，分段线性性允许我们将ϕ表示为 $\phi=(\phi_1,\cdots,\phi_m) \in R^m, \phi_i=\phi(t_i)$
另一个简化方程1为非线性规划（NLP）的关键假设是用梯形法则给出的数值近似来替换信号损失和弯曲正则化中的连续积分。

4 DecDTW 前向传播

DecDTW 层编码了一个隐函数
- 该函数根据输入信号x,y，正则化参数 λ 和约束 $s^{min}=\{s_i^{min}\}_{i=1}^m,s^{max}=\{s_i^{max}\}_{i=1}^m$ , $b^{min}=\{b_i^{min}\}_{i=1}^m,b^{max}=\{b_i^{max}\}_{i=1}^m$ 输出最优的弯曲路径 $\phi^{\star}$ 。
- 该弯曲路径可以用于下游损失
  - 预测弯曲 $\phi^{\star}$ 与=真实弯曲 $\phi^{gt}$ 间的误差
DecDTW 的前向传播解决了由方程 4 给出的 GDTW 问题，给定输入参数。我们使用动态规划（DP）方法解决方程 4，而不是调用通用的 NLP 求解器
- ——>这样做是为了最小化计算时间

求解器的工作机制如下
- 对于每一个 i，我们可以将 ϕi 离散化为 M 个值 $\{\phi_{i,j}\}_{j=1}^M$
- 这些值在全局界限 $b_i^{min},b_i^{max}$ 之间均匀分布
- ——>构成一个有mM个点的图
  - 时序相邻的节点 $(\phi_{i-1,j},\phi_{i,k})$ 用边连接
  - 总共 $(m-1)\times M^2$ 条边
  - 每个节点的成本就是公式5的后一项
  - 边成本就是
  - 违反局部约束 $s_i^{min},s_i^{max}$ 的边被赋予 ∞ 的成本
- ——>新的离散优化问题的全局最小值对应于图中的最小成本路径，并使用动态规划在 $O(mM^2)$ 的时间复杂度下解决
一次求解完之后，对离散化和解进行迭代细化

5 DecDTW 反向传播

前向传播中获得的=ϕ⋆ 相对于输入 $z=(x,y,\lambda,s^{min},s^{max},b^{min},b^{max})$ 的梯度
与现有的可微分 DTW 方法不同，DecDTW 允许正则化权重 λ 和约束hi成为深度网络中的可学习参数
- 记 $\tilde{h}=[h_1,cdots,h_p]$ ，每一个hi表示公式4中的一个不等式
- 根据 Gould et al. (2021)有

6 实验

mingu6/declarativedtw: Reference implementation of DecDTW in PyTorch (ICLR 2023) (github.com)

6.1 乐谱对齐

第一个实验涉及音频与乐谱的对齐，这是音乐信息检索中的一个基础问题，应用范围从乐谱跟随到音乐转录。
该任务的目标是将一段音乐表演的音频录音与其对应的乐谱/简谱进行对齐。
论文使用 Thickstun 等人（2020年）提出的数学形式化方法来评估预测的音频到乐谱的对齐与一个基准对齐，我们现在将对此进行总结。

时间平均误差（TimeErr）和时间标准偏差（TimeDev），具体地给出如下：

6.2 视觉位置识别

移动机器人和自动驾驶汽车导航系统的重要组成部分

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文笔记

论文阅读

论文笔记：DEEP DECLARATIVE DYNAMIC TIME WARPING FOREND-TO-END LEARNING OF ALIGNMENT PATHS 的相关文章

幼儿园里面有科技设备么

现代社会幼儿园是孩子们是快乐且有意义的生涯起点他们从这里认识世间万物格物斯坦心系每位的热爱人工智能的孩子们祖国的未来就靠你们了幼儿园的核心工作是保证幼儿健康成长同时需要为幼儿提供良好的学习和生活环境随着现代技术正朝着智能化的方

随机推荐

Rocketmq Filter 消息过滤（TAGS、SQL92）原理详解 & 源码解析

1 背景 1 1 Rocketmq 支持的过滤方式 Rocketmq 作为金融级的业务消息中间件拥有强大的消息过滤能力其支持多种消息过滤方式表达式过滤通过设置过滤表达式的方式进行过滤 TAG 根据消息的 tag 进行过滤 SQL92
【 ROS 入门 2】tf 入门学习教程总结（缺少系统整理）

ROS官网 tf 教程 http wiki ros org tf Tutorials 参考博客三维旋转矩阵包括任意轴的通用旋转矩阵 Euler角单位四元数的计算视觉SLAM中的数学基础第二篇四元数 ROS学习轻松使用tf t
PIL，cv2，plt的使用与区别

PIL cv2 plt的使用与区别 1 比较三者的打开图片显示图片打开的图片的类型 2 图像类型的转换 PIL与numpy 3 PIL cv2 plt混用 3 1 cv2 plt读PIL打开的图像 3 2 PIL plt读cv2打开的图
https 是如何保护数据传输的

为什么需要 https https 是 http ssl 也就是加密的 http 数据传输我们都知道 https 的最主要的作用在于保证数据的安全但具体来说 https 的安全性主要体现在以下两点保证数据传输不被中间人盗用和信息的泄漏
GitHub开源协议

开源协议有名开源许可证很多经过Open Source Initiative组织 OSI批准通过批准的开源协议目前有58种常见的开源许可证包括 MIT MIT License GPL GNU General Public Licen
预览word文件,支持下载(微软提供)

预览打印 file 文件对象 url 接口地址 filepath 文件路径 filetype 文件类型 PS 兼容docx pdf后缀文件 export const filePreview file gt if file filepath
三层架构：软件设计架构

1 界面层表示层用户看的得界面用户可以通过界面上的组件和服务器进行交互 2 业务逻辑层处理业务逻辑的 3 数据访问层操作数据存储文件
---复位现象---GD32 MCU插入SD卡MCU立刻复位

问题描述程序运行正常但是在插入SD卡的瞬间单片机硬件复位程序重新运行之后状态一切正常可以读取到SD卡如果上电前插入SD卡则一切正常原因使用示波器测试MCU电源在SD卡插入瞬间 MCU电源电压跌落到2 5V以下正常GD
重载输入＜＜，输出＞＞，前置和后置++，--运算符

由于系统给定的输入 lt lt 输出 gt gt 前置和后置运算符只能处理类似于int float等系统已经定义好的类型的变量为了能对我们自己定义的类的对象也能进行这些操作我们就要重载这些运算符定义一个复数类的对象 class Co
基于OPENCV4的火焰烟雾检测

现在目标检测主要采用深度学习训练模型然后采用OPENCV4调用烟雾火焰检测采用CAFFE训练一个模型采用OPENCV4调用 C PYTHON都可以调用可以加Q 2830025146进行讨论效果测试在 https download
前端安全

有哪些可能引起前端安全的问题跨站脚本攻击 Cross Site Scripting XSS 一种代码注入方式为了与 CSS 区分所以被称为 XSS 早期常见于网络论坛起因是网站没有对用户的输入进行严格的限制使得攻击者可以将脚本上传到
行人重识别数据集汇总

最近一段时间在做行人重识别方向的研究行人重识别 Person Re Identification 作为图像识别领域的一个分支在实际生活中具有极其重要的意义目前城市里的用于公共治安领域的摄像头已经大量部署几乎到了几十米到几百米一个覆
Android 11(targetSdkVersion 30)不能获得存储权限的问题和适配指南

虽然原文说的比较详细了但我补充一两点也为了方便自己总结和避坑 Android权限大致可分为三类普通权限只需要在清单文件中注册即可危险权限需要在代码中动态申请以弹系统 Dialog 的形式进行请求特殊权限需要在代码中动态申请
苹果新iPad创新乏力，中国发售遇冷失宠

7月20日清晨北京三里屯苹果店外有点冷清十几个顾客在门口安静地排着队曾经活跃的黄牛党没了踪影守候在一旁的工作人员正在拆除原本打算维持秩序的护栏如果不是店面上巨大的苹果标志你恐怕很难把这个场景和苹果新品首发联系在一起要知道在半年
测试用例入门（三）-使用边界值分析法编写测试用例

在软件测试一书中是这样描述边界值分析法的作用如果在悬崖峭壁边可以自信安全的行走而不掉下去平地就不在话下了本篇文章中的演示代码均由Python编写目录一边界值分析法概述二边界条件的判断三边界两侧的判断四次边界条件
输入华氏温度输出摄氏温度

华氏温度转化为摄氏温度 c 5 9 f 32 数据输入华氏温度 f 输出摄氏温度 c f int input 请输入华氏度 c f 32 5 9 print 6 2f华氏度对应的摄氏度为 6 2f f c 中间出过一点小问题比如第一行双
input标签的类型

今天学习突然想着input有哪些类型呢然后就查了下资料记录一下 1 文本框 type text 2 密码框 type password 3 单选框 type radio 4 复选框 type checkbox 5 图片上传 type f
linux切换用户时报错 this account is currently not available

linux切换用户时报错 this account is currently not available 在安装完redis之后系统创建了一个名叫redis用户但切换到这个用户的时候却报了错 this account is current
网站怎么创建？

网站怎么创建现在很多公司企业都会有自己的网站即使是没有网站的公司也抓紧时间纷纷入局希望能在互联网的流量中分到一杯羹那么网站怎么创建呢下面给大家简单说一说网站怎么创建步骤1 首先我们准备好一个域名一个网站需要有域名才能访问我们
论文笔记：DEEP DECLARATIVE DYNAMIC TIME WARPING FOREND-TO-END LEARNING OF ALIGNMENT PATHS

个人感觉可微DTW的主要优点作为一个损失函数可以进行梯度反向传播如果目标只是两个时间序列的相似度可能不太需要 1 Intro 1 1 背景 DTW 笔记 Dynamic Time Warping 动态时间规整 DTW的python实