论文笔记：TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series

2023-11-08

1 intro

1.1 背景

时间序列 TS 和大模型 LLM 的结合
- 设想了两种实现TS+LLM的范例
  - LLM-for-TS
    - 针对TS数据，从头开始设计并预训练一个基本的大型模型，然后为各种下游任务相应地微调模型
  - TS-for-LLM
    - 基于现有的LLM，使它们能够处理TS数据和任务。
    - 不是创建一个新的LLM，而是设计一些机制来为LLM定制TS。
- 论文承认第一种方法是最基本的解决方案，因为预训练是向模型灌输知识的关键步骤。而第二种方法实际上很难超越模型的原始能力
  - 然而，由于以下三个考虑，论文仍然关注第二种方法：
    - 数据
      - LLM-for-TS需要大量的累积数据。由于TS更加专业且涉及隐私，与文本或图像数据相比，尤其在非工业领域，它更难以大量获取
      - TS-for-LLM可以使用相对较小的数据集，因为其目标仅仅是协助现有的LLM推断TS
    - 模型
      - LLM-for-TS侧重于垂直行业。由于TS在各个领域的主要差异，针对医疗TS、工业TS等的各种大型模型必须从头开始构建和训练
      - TS-for-LLM需要很少甚至不需要训练。通过使用插件模块，它使得使用更加通用和便捷
    - 用途
      - LLM-for-TS适合涉及专家的情况
      - TS-for-LLM保持了LLM的文本能力，同时提供丰富的补充语义，易于访问和用户友好
基于预训练的LLM，最自然的方法是将TS视为文本数据
- 可能的对话是：[Q] 通过以下平均动脉压力序列（单位：毫米汞柱）判断患者是否患有败血症：88、95、78、65、52、30。[A] 是的
- 然而，TS通常是多变量的，而文本是单变量的
- 处理单变量文本的LLM会将多变量TS转化为多个单变量序列并逐一输入它们
  - 这将导致三个缺点
    - 不同的提示、顺序和连接语句会产生不同的结果
    - 长输入序列可能使LLM效率低下，难以记住前一个单变量TS
    - TS中的多变量依赖性的关键方面将被忽略
- ——>论文对TS进行了token化，设计了一个嵌入TS token的模型，并替换了LLM的嵌入层
  - 核心就是创建能够被LLM理解的嵌入

1.2 论文思路

提出了一个嵌入方法（TEST），用于将时间序列标记与LLM的文本嵌入空间对齐
- 在对比学习的基础上，TEST使用正交的文本嵌入向量作为原型来约束TS的嵌入空间，并通过识别特征原型来突出模式，从而激活LLM的模式机器的能力
尽管TS-for-LLM不能显著地超越当前为TS任务定制的SOTA模型，但它是一个具有前瞻性的测试，论文希望它能为未来的研究奠定基础

2 related work

2.1 TS+LLM

目前有三种做法
- PromptCast和 Health Learner将TS视为文本序列。他们直接将单变量数值TS输入到LLM中，并设计提示来实现TS任务。
  - 很明显，他们受到了在引言部分总结的三个困境的限制
- METS将临床报告文本和ECG信号对齐。它满足了ECG-text的多模态条件，但不能推广到大多数没有段注释的TS数据

2.2 TS嵌入（对比学习）

多数方法都集中在实例级对比上
- 将实例（全长TS、TS段等）独立对待
- 将anchor的增强视图视为正样本，其余视图视为负样本
考虑到固有的时间依赖性，研究人员已经探索了在精细的时间级别区分上下文信息的可行性
- 实例的选择包括跨时间序列和时间序列内部
直接对比不能将TS嵌入和LLM的可理解空间联系起来
- 论文冻结预训练的LLM，训练TS的嵌入
- 使用LLM中的文本标记嵌入来限制和引导TS标记嵌入
LLM的本质实际上是通用的模式机器(Mirchandani等人 2023)
- 因此，无论token列表的组合是否有可以被人类理解的语义，都强行对齐TS token的模式和文本token的模式
- ——>一个TS token列表可以被一个没有语义信息的句子近似地表示

3 方法

3.0 总览

方法有两个关键步骤
- 将TS token化，并使用对比学习训练一个编码器来嵌入TS token
- 创建提示使LLM更加接受嵌入并实现TS任务

3.1 TS token增强和编码

3.1.1 tokenize和embedding

一个多变量时间序列有D个变量和T个时间点
- 被分割函数Fs: x →s分割成 K个不重叠的子序列 $s=\{s_k\}_{k=1}^K$ 组成的列表
- 每一段 $s_k=x_{t_i:t_j}$ 长度是随机的 $1 \le t_i \le t_j \le T$
- s 为时间序列x的token列表
- Fs 通常是滑动窗口
- 使用随机的长度分割TS，得到许多标记 s
每个token 都可以通过一个嵌入函数 $F_e: s_k \in R^{D \times T} \rightarrow e_k \in R^M$ 嵌入到一个M维的表示空间中

3.1.2 对比学习正负样本

定义一个TS标记 s 作为锚点实例
正样本s+，定义两个获取来源
- 第一个是重叠实例
  - 使用与 s 有重叠样本的实例
- 第二种是增强实例
  - $s^{weak}$ ——对原序列加噪声和缩放
  - $s^{strong}$ ——对序列进行随机分割并打乱
负样本：与s不具有重叠样本的实例
接着，利用映射函数，将每个token映射为M维的表征
- 对于获得的token，首先通过目标函数来保证e能够充分表征原始序列信息
  - fd是decoder，将embedding还原成token

3.2 instance-wise contrast learning （第一类正样本）

对于构造的正负实例，保证目标anchor instance 与其对应的正token instance 尽可能相似，与负 token instance 差异尽可能大
- - fp是一个一层的MLP
instance-wise contrast learning的弊端在于可能将没有重叠样本，但位置相近且语义相近的实例视为负例
- ——>文章进一步设计了feature-wise contrast learning，关注不同列所包含的语义信息

3.3 feature-wise contrast learning

embedding的embedding

weak+和strong+都是m+的一部分

上述目标函数保证对于每个feature级别，正样本间尽可能相似，负样本间差异尽可能大
但是这样容易导致特征表示收缩到一个较小的空间，因此目标函数的最后一项最大化不同特征间差异

3.4 text-prototype-aligned contrast learning

为了让LLM更好地理解构建的TS-embedding，文章设计了text-prototype-aligned contrast learning，将其与文本表示空间进行对齐
目前预训练的语言模型已经有了自己的 text token embedding
- 例如，GPT-2 将词汇表中的文本token嵌入到维度为 768、1024 和 1280 的表示空间中
文章强制地将时间序列标记 e 与文本标记 tp 进行对齐
- 比如，虽然TS-embedding可能缺少对应相关的文本表述，但是可以拉近其与例如数值、形状和频率等描述文本的相似度。
- 通过这种形式的对齐，TS token 就有可能获得表征诸如时间序列大、小、上升、下降、稳定、波动等丰富信息的能力。
- 然而在实际情况中，因为无法提供监督标签或者真实数据作为基准，上述文本时序对齐的结果很可能无法完全符合现实。
  - 例如，具有上升趋势的子序列的嵌入可能非常接近下降文本的嵌入，甚至可能是不描述趋势的文本的嵌入
  - 但对论文来说，语义是否可以被理解是不相关的
  - ——>为了更好地匹配TS-embedding和文本token，文章设计了如下的对比损失函数
- 第一项text alignment，约束向量的相似性（最大化TS-embedding 与text embedding之间的余弦相似性）
- 第二项text contrast，使用文本原型作为坐标轴将TS嵌入映射到相应的位置，从而保证相似的实例在文本坐标轴中有着类似的表示
- 【注：需要保证两个空间大小类似】

3.5 soft prompt

通过上述过程，文章构造了语言模型能够理解的embedding e表示来描述时间序列TS
- 但是语言模型仍然需要被告知如何进行接下来的时间序列任务
目前prompt engineering 和 COT（chain of thought）直观且易于理解，能够指导LLM获得较好的结果
- 但这些方法需要连贯的上下文语义，TS-embedding并不具备这样的特效
——>本文进一步训练了针对于时序数据的soft prompt，使得语言模型能够识别到不同序列的模式，从而实现时间序列任务
- 这些软提示是针对特定任务的embedding，可以从均匀分布中随机初始化，或从下游任务标签的文本嵌入中获取初始值、从词汇表中最常见的词汇中获取初始值等
- 获取prompt的目标函数如下：
文章提到有监督微调方法能有效提高下游TS任务的准确性
- 但训练成本高昂，同时无法保证微调后的语言模型能够有效理解TS-embedding中的语义信息
- ——>文章放弃了有监督微调而采用了训练soft prompt的方式
- 同时文章也证明了经过训练soft prompt能够达到有监督微调相似的效果

4 实验

4.1 实验结果

分类

预测

QA指的是直接给大模型prompt，让他回答问题

1) [Q] Forecast the next value of the given [domain] sequence: [numerical sequence]. [A] ;

2) [Q] Forecast the next value of sequence with average of [numerical value], variance of [numerical value], and sampling rate of [numerical value]. [A]

4.2 案例研究

使用最近邻方法在冻结的LLM的词嵌入空间中找到一个TS标记匹配的文本

大多数单词都是关于情感的形容词和名词

通过提示，模型将把TS分类任务视为一个情感分类任务

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文笔记

论文阅读

深度学习

人工智能

论文笔记：TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series 的相关文章

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

egg:Error: controller not exists

前言在学习和运用node的egg时的报错信息记录报错解决办法确定router js里面的路由和自己写的Controller相匹配确定你在controller最后一行写了module exports 个人问题 router js里面
什么是图表设计，图表设计的意思

在信息时代中一些数据的价值需要经过深度的挖掘之后才能够表现出来当我们使用分析工具挖掘出数据的价值之后就需要找到一种合适的方式来表达数据对于当前的数据管理工作来说真正能够帮助人们完美的呈现数据的工具就是图表图表会让数据可视化的效果
chatglm微调

chatGML 看到官方教程 ChatGLM 6B 微调 P Tuning LoRA Full parameter 精准空降到 15 27 https www bilibili com video BV1fd4y1Z7Y5 share s
[论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例

娜璋带你读论文系列主要是督促自己阅读优秀论文及听取学术讲座并分享给大家希望您喜欢由于作者的英文水平和学术能力不高需要不断提升所以还请大家批评指正非常欢迎大家给我留言评论学术路上期待与您前行加油前一篇文章详细介绍ACE去雾
JS与CSS交互&表单验证

目录一基本概念 1 基本介绍 2 JavaScript 特效之四大家族 1 基本组成 1 三大系列 offset scroll client 2 事件对象 event 3 三大家族区别二表单验证 1 表单验证思路一基本概念 1
Android Studio 下载 Gradle 失败或下载速度慢的解决方案

方案1 参考文档方案2 参考文档方案3 更改 Android Studio 中使用的 Gradle 的路径在安装 Android Studio 时会默认安装一个 Gradle 版本文件在 Android Studio 安装目录的根
刷力扣算法--蓝桥杯备战

刷题网站 https leetcode cn com problems container with most water submissions 参考书籍 LeetCode 101 和你一起你轻松刷题 C 使用语言 python 记录刷题
东北大学acm第一周周赛

include
48使用说明书_十分钟不到，就学会使用乐高studio2.0做图纸啦！上

猜一猜第五个齿轮是朝左转动还是朝右转动点击空白处查看答案大家看了端午节的龙舟图纸在后台留言希望我出一个studio20的入门教程今天zfeng老师带着入门教程来啦乐高积木作为最受欢迎的玩具之一对大人小孩都有着非常大的吸引力乐高
计算机网络复习题2(含答案及解析及知识点)

1 影响信道最大传输速率的因素主要有 A A 信道带宽和信噪比 B 码元传输速率和噪声功率 C 频率特性和带宽 D 发送功率和噪声功率香农定理带宽受限有噪声时极限无差错的信息传输速率分贝数 dB 10lg S N 例如信噪比是3
Vue动态路由传值和Get传值

Vue动态路由在一个页面获取上一个页面的传值 1 配置动态路由步骤 const routes main js文件中 path Content aid component Content 动态路径参数以冒号开头在上一个页面中配置
QT：只允许在自定义标题栏中鼠标拖动控制窗口位置

目录说明效果展示代码说明在使用了自定义的标题栏想要实现鼠标只能在标题栏中拖动窗口在其它地方拖动不了窗口的效果我们这里是在标题栏类的鼠标事件中处理拖动窗口的事情实现过程标题栏类中的鼠标事件获取了拖动位置后通过移动标题栏的
解决java.lang.NoClassDefFoundError: Could not initialize class org.codehaus.groovy.vmplugin.v7.Java7

场景把本地写好的SDK推到公司maven库里执行 gt gradlew bat p sdk名称 clean uploadArchives 时遇到标题样式的报错解决 Android目录下 Gradle Scripts gradle wr
VS2010+Qt5+OSG3.0开发环境搭建

一 VS2010 VS2010的安装网上教程很多不再叙述二 Qt 在VS中开发程序需要下载Qt安装包和Qt的VS插件我用的版本是Qt5 1 1 for Windows VS2010 OpenGL VisualStudio Add i
umi脚手架环境下实现H5页面路由转场动画

目录环境介绍核心思路核心代码所在目录中位置核心代码的讲解效果图 gitHub 地址 umi3 demo 环境介绍 umi 是一个可插拔的企业级 react 应用框架我们使用 react transition group 动画库来
Python绘图之seaborn（一）

最近在系统梳理一下Python的几个可视化绘图库其中seaborn上手较为方便快捷下面给大家简单介绍一下可以满足自己日常需要的绘图要求 Seaborn 是一个基于 matplotlib 且数据结构与 pandas 统一的统计图制作库
请领导审阅并提意见应怎么说_成功的领导是怎样跟下属沟通的？在交谈的时候，应当注意这三点...

成功的领导者都是善于沟通的人与员工沟通的目的是让员工了解公司的目标传达正确的指令激励员工共同努力完成任务征服员工的心靠的不是说教的语言而是灌输伟大的真理但要善于换位思考知道员工想追随什么样的领导用自己的言行影响员工一应
Windows Server 2003网络配置与管理安装Active Directory

安装Active Directory 域控制器是通过安装Active Directory来创建的执行安装Active Directory的账户必须是本地计算机Administrators组的成员或者是被委派有Administrators
js逆向登录破解

如有侵犯您的利益 qq 2867395035立马进行修改 1 x奇艺逆向登录破解 window this window M window M M 211 function a b return function if b a execute
论文笔记：TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series

1 intro 1 1 背景时间序列 TS 和大模型 LLM 的结合设想了两种实现TS LLM的范例 LLM for TS 针对TS数据从头开始设计并预训练一个基本的大型模型然后为各种下游任务相应地微调模型 TS for LLM 基