机器学习:Self-supervised Learning for Speech and image

2023-10-27

在这里插入图片描述

review : self-supervised learning for text

在这里插入图片描述

1. Self-supervised learning for speech

在这里插入图片描述
使用Speech版本的bert能比较好的作用于语音任务上,如果没有self-supervised的话,别的模型可能需要上万小时的数据。

Superb

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


2. Self-supervised Learning for Image

在这里插入图片描述
在这里插入图片描述


3. Generative Approaches

在这里插入图片描述

Speech

应用于语音上

  • Bert系列
    在这里插入图片描述

把声音信号的某些部分盖起来,让模型还原回来
在这里插入图片描述

  • GPT系列
    给定一个文字,预测下一个文字是什么;给定一段声音信号,预测接下来的语音什么:
    在这里插入图片描述
    文本是一个词,声音要大于三个词。
Image

应用于图像上,拉直成一维向量
在这里插入图片描述
然后盖住某些像素,预测下一个像素;或者给定一段像素,预测后面的像素是什么,之后接下游任务,比如分类。

4. Predictive Approach

在这里插入图片描述
语音和图像相较于文本来说包含了非常多的细节,往往更加困难一些。

Image——预测图片是否被旋转过

在这里插入图片描述

Image——内容预测

预测两个块 第二个小块在第一个小块的哪个方向。
在这里插入图片描述

不做生成就能自监督学习。
在这里插入图片描述
让机器预测产生cluster的结果。


5. Contrastive Learning——对比学习

在这里插入图片描述
在这里插入图片描述
让相同的向量越近越好,让不相同的向量越远越好。
但是不知道类别,怎么做呢?

SimCLR

对图像做data augmentation的图片是positive pair,如果是另外一张图片的data augmentation的图片是negative pair。
在这里插入图片描述
data augmentation:

  • random crop
  • color distortions
  • gaussian blur

语音版本的speech simclr

MoCo

在这里插入图片描述

语音版本的对比学习
  • CPC
  • Wav2Vec

在这里插入图片描述
可以将encoder用在下游任务里面或者将encoder和predicter一起用在下游任务里面。

在这里插入图片描述
在这里插入图片描述
将token盖起来,让bert学会做填空:

在这里插入图片描述

wav2vec 2.0版本将encoder和bert encode一起联合起来训练,将输入的某些部分mask,用输出的向量来预测mask的tokek是哪一个,越mask的3越近越好,与旁边的越远越好。

在这里插入图片描述
bert其实也是一种对比学习,也是让正确的答案越近越好
在这里插入图片描述

在这里插入图片描述

分类任务:分数越大越好
对比学习任务:分数越小越好

分类任务如果类别很多的话,random pair不可能穷举所有的其他组合,可以采用contrasive方式学习,让正确的embedding与last layer output的乘积越小越好,随机选取部分不正确的embedding与last layer output的乘积越大越好。

在这里插入图片描述
比较难穷举所有的负样本,只是想让embedding最能代表它本身,可以将bert当做对比学习的思想。
在这里插入图片描述

难点

选择负样本:

  • 选择够难的负样本,但不要太难的负样本(比如同类两张猫,将猫的向量也拉远了)
    在这里插入图片描述
    下面介绍避开挑选负样本的方法

6. Bootstrapping Approaches

在这里插入图片描述
没有负样本的话,只要给两个图片就给出两个非常接近的向量,这不是我们想要的结果:
在这里插入图片描述
只用正样本的话,一条通道接一个predictor,让两台通道产生embedding越相近越好,但只更新右边的通道,训练好了后将右边的通道参数同步到左边的通道:
在这里插入图片描述

  • 左右两边的架构要有点不同
  • 只训练某一边的encoder,再把训练好的参数复制到另外一边

两条通道不一样,让两个无法一起作弊,也可以以知识蒸馏的方式理解上面架构:

在这里插入图片描述
在这里插入图片描述
相关的算法:

  • Image
    • BYOL
    • SimSiam
  • Speech
    • Data2vec

7.Simply Extra Regularization

在这里插入图片描述
给的是一个batch,要求每个维度的差别要大于一个阈值:
在这里插入图片描述
在这里插入图片描述

最关键的是variance,后续可以加点优化Covariance, 语音方向有类似DeloRes

总结

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习:Self-supervised Learning for Speech and image 的相关文章

随机推荐

  • html图片列表选择器,CSS 列表

    CSS 列表 从某种意义上讲 不是描述性的文本的任何内容都可以认为是列表 人口普查 太阳系 家谱 参观菜单 甚至你的所有朋友都可以表示为一个列表或者是列表的列表 由于列表如此多样 这使得列表相当重要 所以说 CSS 中列表样式不太丰富确实是
  • Laravel 图片不显示解决方案

    转自 https blog csdn net qq 18951197 article details 93163149 图片文件存储位置为 项目目录 storage app public 1 在项目目录下执行命令创建过软链接 php art
  • ELF文件查看利器之objdump用法

    Android在NDK开发工具中提供了objdump 用来帮助开发者查看编译后目标文件的组成结构和具体内容 常用的有以下几个功能选项 1 a或者 archive headers 这个参数起到的作用和ar命令相似 用来看一个 a静态库文件中包
  • OpenStack--部署nova控制节点与计算节点

    官方部署文档 https docs openstack org mitaka zh CN install guide rdo common get started compute html 1 安装并配置 nova 控制节点 官方安装文档
  • ISP算法学习之LSC(镜头阴影校正)

    LSC Lens Shading Correction 是ISP算法中的一个重要组成部分 用于校正镜头遮挡 lens shading 现象 镜头遮挡是由于镜头和图像传感器的光学特性导致的图像亮度不均匀的现象 通常 图像的中心部分较亮 而边缘
  • 破解软件的原理是什么(软件被破解公开)

    到底魔高一丈吗 还是路的高度是一丈 破解与破解之间就像矛盾和矛盾 从第一个软件上线之日起 这就成为了永恒的话题 即使是牛群也不可避免地破译了自己的软件 这不是技术问题 而是信息化时代的产物 软件基于二进制文件存储在系统中 运行时系统平台必须
  • rsync推拉复制同步脚本编写(详细)内附jenkins通过rsync脚本部署到tomcat

    本处基于saltstack的配置目录里分解rsync的tar包 倒序讲解 root master rsync ls rsyncd tar gz 后两个是推复制rsyncd tui master tar gz rsync tui slave
  • JDBC连接MySQL数据库

    文章目录 前言 一 怎么链接数据库 二 使用步骤 https img blog csdnimg cn 91945baa8c094d48890a557614f46fd7 png x oss process image watermark ty
  • stm32定时器详解

    目录 一 时基配置 定时器定时周期计算 二 捕获 比较通道配置 定时器捕获比较模式说明 三 中断优先级配置 四 开启中断与定时器相关函数 链接 一 时基配置 定时器时基配置主要是配置定时器周期 即分频系数和自动重载寄存器 比如现在我需要配置
  • 土壤湿度计检测模块 土壤湿度传感器 机器人智能小车

    https item taobao com item htm spm a1z09 2 0 0 67002e8dtYpcae id 522556171397 u rklgtpkf6bb 土壤湿度模块是一个简易的水分传感器可用于检测土壤的水分
  • 组件路由传参【vue3】

    大家对于vue3也已经不太陌生了 但是在路由传参中会遇到一点小问题 不知大家是否也遇到过 一起来看一下 首先是我们熟悉的vue路由传参 无非就是个router来进行的操作 首先就是导入vue router 这里一定要导入4版本的 不然vue
  • 文件和注册表的重定向解决方法

    注册表重定向解决办法 转载http www 2cto com os 201411 350858 html 32位程序如何访问64位的注册表 HKLM Software 在调用函数RegCreateKeyEx创建注册表项时 对其第六个参数RE
  • .NET Core 在程序集中集成Razor视图

    前言 有时候 我们在开发一个程序集供其他项目引用的时候 可能需要对外输出一些HTML的结构数据 还有一些情况我们可能开发的是一个中间件 这个中间件需要提供一些界面来对外展示数据或者是内部的一些程序的运行信息 这个时候我们也需要一个界面来做这
  • 电路原理图中的“NC“是什么意思?

    电路原理图中的 NC 是什么意思 1 在看电路原理图的时候 电路原理图上有 NC 我查了下是表示 此处不贴任何电子器件 我看了下实际的电路板确实没贴 那么不贴的话是不是相当于这个位置空出来了 断路 了 就是说芯片的这个引脚在电路中是 悬空状
  • 程序员必知的23种设计模式之享元模式

    文章目录 1 模式引出 展示网站项目需求 1 1 传统方案解决网站展现项目 1 2 传统方案解决网站展现项目 问题分析 2 享元模式基本介绍 2 1 享元模式的原理类图 2 2 内部状态和外部状态 可共享和不可共享 3 方案修改 4 享元模
  • flink维表join的几种方式(1)

    维表join的几种方式 一 将维表预加载到内存关联 实现方式 定义一个类实现RichFlatMapFunction在open 方法中读取全部数据加载到内存中 优缺点 因为存在内存中 所以仅支持小数据量维表 因为open方法中读取 所以维表变
  • 简单的两操作数计算器实现(基于Java网络编程)

    客户端代码实现 import java io import java net import java util Scanner 1 已知client端 提交计算表达式请求 如 3 4 2 在server服务器端完成运算并将结果返回给clie
  • Linux下报 No manual entry for 的解决方法

    报错展示 报错原因 没有安装 man pages 这个包 解决方法 yum y install man pages
  • 【界面】yolov8+pyqt5进行目标识别

    解决问题 通过pyqt5进行界面设计 调用yolov8模型对目标进行检测 文章目录 工具 准备工作 获取Onnx模型 核心代码 运行结果 源代码路径 工具 语言 python 主要库 pyqt5 检测模型 yolov8 准备工作 获取Onn
  • 机器学习:Self-supervised Learning for Speech and image

    review self supervised learning for text 1 Self supervised learning for speech 使用Speech版本的bert能比较好的作用于语音任务上 如果没有self sup