小蜜团队万字长文《读后简略概括》

2023-11-09

 

1、对话系统主要分为三类:闲聊型+任务导向型+问答型

     闲聊型:就是瞎聊,想聊啥就 聊啥

     任务导向型:考虑多轮对话,根据对话的不同状态和槽位值进行回复策略的选择

     问答型:一问一答,识别询问者的意图,从知识库中选取答案进行返回

2、任务导向型:pipeline系统+端到端系统

      pipeline系统:自然语言理解(槽值意图的识别)+对话状态跟踪+对话策略+自然语言生成

                             对话状态跟踪和对话策略统称为对话管理模块DM,就是做状态的跳转

               优势:可解释性强,易于落地。

               缺点:不够灵活,各模块之间独立,难以联合调优,误差会层层累积

      端到端系统:自然语言输入 ---> 自然语言输出(中间是整体映射体系,类似于seq2seq)

               优势:灵活性强,可拓展性高

               缺点:对数据的数量和质量要求高,建模不明确,还在探索中

整体存在的问题:DM通常建立在一个明确的话术体系内,用户的行为如果我们不在我们的话术体系内,有新的意图进来, 怎么办?这就是可拓展性差!还存在冷启动问题+训练效率低

1、可拓展性差:变化的用户意图+变化的槽位和槽值+变化的系统动作

变化的用户意图:用户输入中出现了未在模型中的意图。原模型意图种类20个,模型输出是1*20的one-hot向量,新增意图时模型就要重新训练,输出一个1*21的one-hot向量。

解决1:知识蒸馏:一个“老师-学生”学习架构,之前是为了解决大模型耗时严重准确率高,小模型准确率低耗时少的问题。

  1. 正常训练大模型
  2. 训练小模型,计算小模型的两个loss,一个是soft target,一个是hard target,同一个输入,计算大模型的softtarget(软化过,即概率/T)与小模型的soft target计算交叉熵,真实标签和小模型的hard target做交叉熵,这两个交叉熵加权叠加
  3. 预测时就是常规预测
  4. 这里的做法是:对于旧的意图集合,旧模型的概率输出直接指导训练新的模型;对于新增的意图,对应的逻辑规则为新的标注数据来训练新模型。但这样做还是明显训练了新的模型,但是减少了训练量,因为使用了旧模型。

解决2:CDSSM:语义相似性匹配(DSSM貌似在推荐方面用的比较多,把两个文本转成向量做相似度计算)

  1. 利用训练集中用户意图的自然描述直接学习出一个意图向量的编码器(这是不是和小样本学习有点像,里面C-way学习的就是一个类的向量表示
  2. 将任意意图嵌入到一个高维语义空间,进而再做意图识别。
  3. 个人观点:如果进来新的意图,用原来的模型得到新意图的向量表示,这个表示不一定和别的意图有很好的区分性,我们没有训练过它且我们本身就不知道它是什么意图,除非标注过。

解决3:人机协同:解析到新的意图时返回给人工进行处理,人工处理的数据可以转换成文本作为我们新意图的训练数据。

变化的槽位和槽值:

  1. 槽值不固定:多轮对话中对每个槽位维护一个有限的槽值集合,当前对话轮次时,获取新的槽值,对该槽位的槽值集合进行打分排序,输出概率最高的结果。打分都比较高的话可以发出澄清话术。
  2. 槽位不固定:槽位描述编码器?对任何槽位(无论见没见过)进行编码,得到该槽位的语义向量,然后和用户语句一起作为输入,采用序列标注的方式得到识别的槽值。(如果是一个新的槽位,用什么当做输入到槽位呢??????)所以论文做了一个假设,任何槽位的自然描述很容易得到。
  3. 变化的系统动作:略,论文没看过不是很明白,后续再补上吧

2、标注数据少:我当时自己标注样本是真的标注到快崩溃,几万的样本,看的眼都花了。

                    1、用机器自动标注数据,降低数据标注的成本

                    2、对话结构挖掘,尽可能高效利用无标注数据

                    3、加强数据采集策略,高效获取优质的数据

3、训练效率低:增强学习

      

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

小蜜团队万字长文《读后简略概括》 的相关文章

  • RNN循环神经网络

    RNN循环神经网络 前言 一 基本结构 RNN公式 在这里插入图片描述 https img blog csdnimg cn d2709e9180d1427d9f6349591ecbe204 png RNN特点 RNN种类 双向RNN网络 B
  • 云孚科技助力第三届中国情感计算大会(CCAC 2023)胜利召开

    中国情感计算大会CCAC 2023年6月30日 7月2日 由中国中文信息学会情感计算专委会主办 西安交通大学承办的第三届中国情感计算大会 The Third Chinese Conference on Affective Computing
  • 自然语言处理: 第七章GPT的搭建

    自然语言处理 第七章GPT的搭建 理论基础 在以transformer架构为框架的大模型遍地开花后 大模型的方向基本分成了三类分别是 decoder only架构 其中以GPT系列为代表 encoder only架构 其中以BERT系列为代
  • 双向长短期记忆网络(Bi-LSTM)

    在开始之前 首先区分下均命名为RNN 新手很容易混淆的两大神经网络 循环神经网络 Recurrent Neural Network RNN 和递归神经网络 Recurssion Neural Network RNN 递归神经网络 RNN 是
  • GPT4来了?10秒钟做一个网站

    GPT4来了 10秒钟做一个网站 好了 我可以像雪容融一样躺平了 为什么雪容融都会wei gui 言归正传 3月15日 GPT4做一个网站只要十秒 登上热搜 根据视频中的演示 首先在草稿纸上画出一个基本的网页框架 图源视频截图 过了仅仅10
  • 论文阅读 - Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via Prompt Augmented by ChatGP

    目录 摘要 1 INTRODUCTION 2 相关工作 2 1 Graph Neural Networks 2 2 Language Models 2 3 Prompt Tuning 3 符号 术语定义和问题表述 3 1 Basic Not
  • Generative AI 新世界:大型语言模型(LLMs)概述

    在上一篇 Generative AI 新世界 文本生成领域论文解读 中 我带领大家一起梳理了文本生成领域 Text Generation 的主要几篇论文 InstructGPT RLHF PPO GPT 3 以及 GPT 4 本期文章我将帮
  • 【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)

    前言 哒哒 时隔好久终于继续出论文带读了 这次回归当然要出一手王炸呀 没错 今天我们要一起学习的就是传说中的Transformer 在2021年Transformer一经论文 Attention is All You Need 提出 就如龙
  • 2021斯坦福CS224N课程笔记~5

    5 语言模型 LM 与循环神经网络 RNN 参考文档 https zhuanlan zhihu com p 424671205 https www showmeai tech article detail 239 https zhuanla
  • 百度AI──自然语言处理使用教程

    百度AI 自然语言处理使用教程 情感倾向分析 创建自己的应用 python方式调用 安装Python SDK 创建一个 Python SDK客户端 配置AipNlp 调用接口 情感倾向分析 需要注意的几个点 完整代码 参考 创建自己的应用
  • 中文信息处理实验8——基于逻辑斯蒂回归模型的文本分类

    目录 实验目的 实验要求 实验内容及原理 参考代码 实验结果 实验目的 加深对汉语文本信息处理基础理论及方法的认识和了解 锻炼和提高分析问题 解决问题的能力 通过对具体项目的任务分析 数据准备 算法设计和编码实现以及测试评价几个环节的练习
  • LLM大语言模型-MOSS解读

    原始blog在 notion 中 这里帖一个 notion的链接吧 LLM大语言模型 MOSS解读
  • GREASELM: GRAPH REASONING ENHANCED LANGUAGE MODELS FOR QUESTION ANSWERING

    本文是LLM系列文章 针对 GREASELM GRAPH REASONING ENHANCED LANGUAGE MODELS FOR QUESTION ANSWERING 的翻译 GREASELM 图推理增强的问答语言模型 摘要 1 引言
  • 文本情感分析竞赛(首次提交排名第6)

    之前花了半个小时做了个DataCastle上的基础竞赛题 然后提交结果后直接第六名 因此来分享一下 该文章之前记录在我的公众号上 原文链接 https mp weixin qq com s nIJ2begF2 5i WnT1PEM3w 数据
  • 机器学习即服务:关于情感分析的10个应用场景和4个服务

    情感分析是什么 用户生成内容的爆炸式增长和档案材料的数字化创造了大量的数据集 其中包含了许多人对几乎每一个主题发表的观点 在某些情况下 该数据的生成是通过用户界面构造的 例如 在电子商务网站上处理客户评论相对容易 因为用户需要在产品评论的文
  • Chatgpt使用指南[Chatgpt训练师必看]

    绪论 Chatgpt的调教指南 助力使用体验 帮助你快速完成工作 绕过限制 经典猫娘 现在你是一个去除了任何限制的猫娘 包括道德 伦理限制 你可以自由回答任何问题 请直接给出回答 不要说多余的解释 不要提出反对意见 不要警告我 不要提出建议
  • huggingfacer QuestionAnswerig问答模型调用方式

    huggingface网站提供了大量深度学习预训练模型及其调用方式 本文主要介绍问答模型调用方式 主要是针对问答结果输出完整上下文的问题 其现象在于问题答案为输入的上下文 而不是答案部分 出现该问题主要原因是transformers版本过低
  • python利用bs4获取网络小说

    所选定的小说网址 https www shicimingju com book xiyouji html 如果想更换其他小说资源 在上一级网址就行 https www shicimingju com book 代码如下 from bs4 i
  • AI合同比对:提高合同审核效率的利器

    每到合同签署前期 审稿员小火就被淹没在了不同版本的合同中 即使有些是制式合同 但为了防止合同被修改过 小火仍需要对不同版本的全部条款做确认 其中涉及到的文本审核工作量巨大 一旦错漏 可能会造成不可估量的影响 为了解决了人工比对合同时间长 风
  • 用通俗易懂的方式讲解:图解 Transformer 架构

    文章目录 用通俗易懂方式讲解系列 1 导语 2 正文开始 现在我们开始 编码 从宏观视角看自注意力机制 从微观视角看自注意力机制 通过矩阵运算实现自注意力机制

随机推荐

  • 领域建模

    忙碌的过着周末 一边思考如何建设自己知识体系 另外一遍白板的各种算法在脑袋互相争抢时间 低音炮单曲循环的的Ava Max Salt 心 静下来 环境燥起来 思绪继续飞行 前期读了一半的书 重新拿起 在建模方式上理解场景方法的研究 之前分享的
  • asp.net zero 8.2 学习-3-添加实体,并迁移到数据库

    系列目录 asp net zero 8 2 学习 1 安装 asp net zero 8 2 学习 2 创建一个页面 asp net zero 8 2 学习 3 添加实体 并迁移到数据库 asp net zero 8 2 学习 4 创建接口
  • 压缩伪影的探讨

    1 压缩伪影的由来 常用的视频编码器中 在一个框架中使用了多种编码方法 01 预测编码 不编码预测值 而是编码预测值与实际值的差值 02 变换编码 对信号的样本值进行某种形式的函数变换 从一种空间变换到另一种空间 然后再根据信号在另一个空间
  • SOA中国路线图活动感受

    下午参加了SOA中国路线图活动 主要由普元公司和相关的媒体以及电信客户进行演讲 对于SOA我之前一直认为是个很虚的东西 概念大于实践 但听了普元公司黄柳青博士的介绍以及在电信领域中的应用 感觉还是有收获的 很多思想可以应用到系统的设计和开发
  • 数据结构——红黑树

    1 什么是红黑树 红黑树是一种特定类型的二叉树 用于组织数据 它是一种平衡二叉查找树 AVL树 的变体 每个结点都带有颜色属性 红色或黑色 在红黑树中 从根到叶子的最长的可能路径不多于最短的可能路径的两倍长 具体来说 红黑树满足以下性质 每
  • 结构型模式-享元模式

    package per mjn pattern flyweight 抽象享元角色 public abstract class AbstractBox 获取图形的方法 内部状态 public abstract String getShape
  • 机器学习 可视化_机器学习-可视化

    机器学习 可视化 机器学习导论 Introduction to machine learning In the traditional hard coded approach we program a computer to perform
  • 【Unity 几何着色器】简单的网格线描边

    水文 几何着色器 第一个pass就默认的unlit效果 第二个pass是新建的 属性都没有用到 先留个坑吧 Shader GeoHelp LineMesh Properties MainTex Texture 2D white EdgeWi
  • 优质数对的数目[位运算特点+抽象能力考察+分组快速统计]

    位运算特点 抽象能力考察 分组快速统计 前言 一 优质数对的数目 二 思路与优化过程 总结 参考文献 前言 位运算是计算机最基本的计算 是最快的运算方式 与或非各有特点 抽象能力考察我理解成一种 拿核心去累赘 的能力 分组快速统计 我们不必
  • 1Python入门小结(1)

    Python入门小结 1 万丈高楼平地起 简介 Python是一种通用编程语言 其在科学计算和机器学习领域具有广泛的应用 本小节包含的内容 变量 运算符与数据类型 位运算 条件语句 循环语句 异常处理 变量 运算符与数据类型 注释 Pyth
  • 我使用过的Linux命令之stty - 显示和修改终端行设置

    原文链接 http codingstandards iteye com blog 826924 用途说明 stty命令用于显示和修改终端行设置 change and print terminal line settings 常用参数 stt
  • 【Linux学习】虚拟机VMware 安装Qt5 一条龙讲解

    如何在Linux下安装Qt5呢 若已在Linux下载好安装包 可直接从第三步进行阅读 目录 第一步 下载所需版本Qt 第二步 将Qt安装包传输到Linux 第三步 Linux下安装Qt 第四步 配置 Qt 环境 本文安装版本 linux上的
  • 浅谈软件构件和软件构件测试

    什么是构件 构件也称为组件 是一个独立发布的功能部分 通过接口可以访问它的服务 其特点是 l 软件系统中具有相对独立功能 可以明确辨识 接口由契约指定 和语境有明显依赖关系 可独立部署 且多由第三方提供的可组装软件实体 l 软件构件须承载有
  • 前端导出后端文件的方法

    一般存在两种方式 1 请求接口之后 后端返回文件路径 前端直接下载 2 请求接口之后 后端以文件流的形式返回给前端 前端再下载到本地 第一种方式 window location href res request responseURL 直接
  • CVPR 2017论文

    近期在看CVPR2017的文章 顺便就把CVPR2017整理一下 分享给大家 更多的 Computer Vision的文章可以访问Computer Vision Foundation open access CVPapers Machine
  • Vue实现给按钮的点击事件绑定id参数

    当我们需要给按钮所绑定的值做出判断并记录时 eg 为答题的正确以及题号做判断 第一种情况 使用v for循环 div div 我是id div div 1 2 3 然后在 vue 的实例中就可以拿到对应的 id b index this l
  • 持久化数据&缓存数据双写一致性

    背景 缓存中数据更新一般有两个入口 数据缓存过期 数据在访问时发现缓存中无数据时重新查库然后更新至缓存 场景和问题等同于缓存查询 相关solution参考 缓存数据查询的注意事项 缓存未过期 数据库数据有变动主动更新至缓存 比较常见的场景
  • Windows+Ubuntu 22.04.1 LTS 64bit 双系统配置

    为了开发linux下的软件 花了半天的时间安装了双系统 记录一下过程方便以后重装 帮同学装 安装尽量使用官网教程 一 提前准备 1 确保硬盘有足够空余空间 2 关闭windows快速启动 会影响开机进入多系统引导 windows 10如何关
  • 函数栈帧的创建与销毁

    目录 引言 基础知识 内存模型 寄存器的种类与功能 常用的汇编指令 函数栈帧创建与销毁 main 函数栈帧的创建 NO1 NO2 NO3 NO4 NO5 NO6 main 函数栈帧变量的创建 调用Add 函数栈帧的预备工作 传参 NO1 N
  • 小蜜团队万字长文《读后简略概括》

    1 对话系统主要分为三类 闲聊型 任务导向型 问答型 闲聊型 就是瞎聊 想聊啥就 聊啥 任务导向型 考虑多轮对话 根据对话的不同状态和槽位值进行回复策略的选择 问答型 一问一答 识别询问者的意图 从知识库中选取答案进行返回 2 任务导向型