Transformers学习笔记4

2023-10-29

Tokenizer

nlp任务的输入都是raw text，model的输入需要是inputs id，所以tokenzier将句子转换成inputs id，怎么转换呢，有3种方式：

word-based

split the text：

按照空格来区分

按照标点来区分

我们会得到一个非常大的词表，Each word gets assigned an ID, starting from 0 and going up to the size of the vocabulary.

问题1：词表太大了，负担过重

问题2：相似词没有做区分，例如dog与dogs他们的标号不一样

我们可以限制词表为最常出现的10000个词组成，若不在词表中的词可以用[UNK]或者表示。

问题1：如果词表设置的太小的话，那么会有太多[UNK]词，显然会影响训练效果

character-based

将text划分为字母

好处：

词表变小了：例如只有26个字母和一些特殊字符

没有未知词[UNK]了

坏处：

每个字符没有啥意义（但是因语言而异，例如中文汉字比拉丁字符的意义多）

每个单词的tokenizer数目变多了，例如good采用word-base时只有一个tokenizer，但是使用character-based时有4个tokenizer

Subword tokenization（推荐）

频繁使用的单词不应该被拆分成较小的子单词，而罕见的单词应该被分解成有意义的子单词。

这样词表小了，[UNK]词也少了，而且近似词之间还有联系

补充

Byte-level BPE, as used in GPT-2

WordPiece, as used in BERT

SentencePiece or Unigram, as used in several multilingual models

创建tokenizer

特定类型的创建

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

自动创建（推荐）

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

例子

tokenizer("Using a Transformer network is simple")

{'input_ids': [101, 7993, 170, 11303, 1200, 2443, 1110, 3014, 102],
'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0],#标记token属于哪个句子
'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}#标记哪些token是padding的，这种不需要关注上下文

保存tokenizer

tokenizer.save_pretrained("directory_on_my_computer")

encoding

把text变为input ids就是encoding，步骤：

split the text into words，也叫tokens

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)

['Using', 'a', 'transform', '##er', 'network', 'is', 'simple']

convert those tokens into numbers，使用我们from_pretrained下载的词汇表

ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[7993, 170, 11303, 1200, 2443, 1110, 3014]

decoding

把tokens变成text

decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string)

'Using a Transformer network is simple'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformers

Transformer

Powered by 金山文档

Transformers学习笔记4 的相关文章

Transformer学习笔记

一 Transformer诞生背景 Transformer模型是解决序列转录问题的一大创新在Transformer模型之前序列转录模型都或多或少的基于复杂的循环或卷积神经网络循环神经网络的计算是时序性的位置的计算必须基于之前所有位置
jvm 远程调试配置

jstatd方式创建配置文件随便找个目录就可以 cat gt jstatd policy grant codebase file java home lib tools jar permission java security AllP
2023.02

2023 02 01 将mpu写到dxReagion中的数据打印到文件中调试解决mpu2ipu和ipu2mpu同时跑线程未关掉导致的异常 2023 02 02 学习2102 spec文档和mpu设计文档将mpuipu测试用例加到回归测试
Python安全攻防之第二章Python语言基础

2 3 Python模块的安装与使用 python模块的安装 pip3 install 模块名称 py 3 m pip install 模块名称 python模块的导入与使用 1 Import模块名称采用 Import模块名称方式时需
【论文精读】ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Hierarchical Text Conditional Image Generation with CLIP Latents 前言 Abstract 1 Introduction 2 Background 2 1 Taxonomy of
【INS-30014】无法检查指定的位置是否位于CFS上的解决办法

安装oracle数据库过程中出现 INS 30014 无法检查指定的位置是否位于CFS上的解决办法如下安装过程中选择仅安装数据库软件在安装成功后使用DBCA工具创建以及配置数据库即可
小程序跳转小程序

小程序如何跳转到其他小程序微信小程序跳转到其他小程序有两种方式一种是用组件navigator跳转
Peewee的坑

db create tables Student 当如上使用时可能会报表Student不存在的错误官方实例如db create tables Student Pet 改成db create tables Student safe True
VisualStudio—Remote Debug

主要用来解决本地调试没问题发布到远端后却报错的项目一 Windows Debug Windows 本文叙述采用的VS2022 远端 windows服务器安装远程调试器远端 windows服务器安装过程省略详见官方参考链接中设置远程
Qt的基本语法及其使用(一)

Qt的概念 Qt是通用的C 开发界面框架 C 图形用户界面应用程序开发框架既可以开发GUI程序也可以开发开发非GUI程序 Qt是面向对象的框架使用特殊的代码生成扩展 Qt的历史 1991由QT公司研发 2008年被诺基亚收购 2012
CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION 论文阅读笔记

CROSSFORMER A VERSATILE VISION TRANSFORMER BASED ON CROSS SCALE ATTENTION 论文阅读笔记这是浙大腾讯哥伦比亚大学一起发表在ICCV的一篇文章文章有三个贡献一是
通过微信小程序实现登录功能

后端服务器可以在CSDN上开通价格优惠 CSDN开发云 https img home csdnimg cn images 20220518054835 png https dev csdn net activity utm source
BMVC 2022 (东京大学)仅需90K参数！实时完成低光增强, 曝光矫正的超轻量级Transformer网络IAT，已开源

本文由 52CV 粉丝投稿作者信息门下奶狗知乎地址 https zhuanlan zhihu com p 535695807 我们提出Illumination Adaptive Transformer IAT 网络用来探索实时的暗光
Unity3D小程序部署与开发

Unity3D目前已经支持微信小程序开发目前正处于公测阶段可以参考文档这样我们只需要在unity本地开发完一键导出微信小程序工程发布即可 0 下载小程序开发工具与Unity 微信小程序插件小程序开发工具 wechat devtoo
4大主流CPU处理器技术架构

推荐阅读浅谈linux 内核网络 sk buff 之克隆与复制深入linux内核架构进程线程了解Docker 依赖的linux内核技术导读 RISC 精简指令集计算机是一种执行较少类型计算机指令的微处理器起源于80年代的MI
深度学习模型参数量/计算量（附计算代码）

参考 https mp weixin qq com s biz MzI4MDYzNzg4Mw mid 2247546551 idx 2 sn f198b6365e11f0a18832ff1203302632 chksm ebb70e63dc
神经网络学习小记录68——Tensorflow2版 Vision Transformer（VIT）模型的复现详解

神经网络学习小记录68 Tensorflow2版 Vision Transformer VIT 模型的复现详解学习前言什么是Vision Transformer VIT 代码下载 Vision Transforme的实现思路一整体结
GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

编者按近年来深度学习应用日益广泛其需求也在快速增长那么我们该如何选择合适的 GPU 来获得最优的训练和推理性能呢今天我们为大家带来的这篇文章作者的核心观点是 Tensor Core 内存带宽和内存层次结构是影响 GPU 深度
【Transformer】Transformer and BERT（1）

文章目录 Transformer BERT 太完整了同济大佬唐宇迪博士终于把 Transformer 入门到精通全套课程分享出来了最新前沿方向学习笔记 Transformer 无法并行层数比较少词向量生成之后不会变没有结合语
BEV+Transformer感知架构共识下，传感器「火药味」再升级

高阶智能驾驶战火愈演愈烈正带动感知方案卷入新一轮军备竞赛根据高工智能汽车研究院最新发布数据显示 2023年1 9月中国市场不含进出口乘用车前装标配软硬件 NOA交付新车37 73万辆同比上年同期增长151 20 未来几年内 N

随机推荐

计算机提示xinput1_4.dll丢失的解决方法，哪种更值得推荐

最近我在使用某个游戏时遇到了一个问题就是出现了xinput1 4 dll文件缺失的错误这个错误让我无法正常启动游戏让我感到非常困扰和沮丧经过一番努力我终于成功修复了这个问题也总结了一些解决方法大家可以对比一下哪种更值得推荐 x
react 属性验证与默认属性

类组件属性验证与默认属性通过static定义类的属性属性验证可以引入模板自带的prop types来进行类型判断当然你也可以自己写一个类型判断的方法然后对类的propTypes属性进行类型编写 propTypes 这个属性名不可自定
【AWS实验】使用 Lake Formation 设置数据湖

文章目录实验概览目标实验环境任务 1 探索实验环境任务 1 1 在 S3 存储桶中创建文件夹任务 1 2 加载 AWS Cloud9 IDE 任务 1 3 将数据复制到 S3 存储桶任务 2 设置 AWS Lake Forma
jq的ajax里面的datagrid,详解jquery easyui之datagrid使用参考

本文介绍了jquery easyui之datagrid使用具体如下创建datagrid 在页面上添加一个div或table标签然后用jquery获取这个标签并初始化一个datagrid 代码如下页面上的div标签 js代码 mag
ES配置与使用

一单机版安装地址 www elastic co 下载tar格式或者复制链接 wget url下载启动 bin elasticsearch 二插件解决页面问题 GitHub下载 elasticsearch head 需要node环
RISC-V新进展！deepin 成功适配VisionFive 2

RISC V指令集是基于精简指令集计算 RISC 原理建立的开放指令集架构 ISA RISC V则是在指令集不断发展和成熟的基础上建立的全新指令 RISC V指令集完全开源设计简单拥有模块化的设计完整的工具链易于移植Unix系统以
WebService+Rxjava

最近公司有了个新项目是之前有个项目需要迭代由于这个项目比较老所以用的是WebService的接口我之前都是写的是restful的接口没有接触过WebServiece 看到之前的代码我也有点闷逼于是就花了几天去研究了下WebSer
补码乘法,补码乘法计算详细解说

1 补码与真值得转换公式补码乘法因符号位参与运算可以完成补码数的直接乘法而不需要求补级这种直接的方法排除了较慢的对2求补操作因而大大加速了乘法过程首先说明与直接的补码乘法相联系数学特征对于计算补码数的数值来说一种较好的表
CMake 学习笔记（子目录续）

这篇博客接着上篇我们的目录结构和上一个例子完全相同 CMakeLists txt MathFunctions CMakeLists txt MathFunctions cxx MathFunctions h mysqrt cxx mysq
STM32的Bootloader实现和遇到的情况

目录 0 概述 1 keil设置 2 IAP跳转函数 3 APP重定向中断向量表 3 1 标准库 3 2 HAL库 4 一些小问题 4 1 从IAP跳转到APP后运行异常 4 2 没有SCB gt VTOR设置中断向量表 0 概述实际中通
opencv---曲线断点检测（八邻域断点检测）

前言该方法适用于激光照射的背景图像没有交叉仅限一条曲线断裂检测原始图像原始图像越干净简单检测效果越好原始图像越干净简单检测效果越好原始图像越干净简单检测效果越好原始图像越干净简单检测效果越好预处理很重要
Java怎么设置代理ip

在Java中设置代理IP可以通过使用Java系统属性来实现具体步骤如下 1 设置代理地址和端口号 System setProperty https proxyHost 代理地址 System setProperty https proxy
vue3-vite使用lib-flexible（amfe-flexible）总结

创建完vue3项目也安装了flexible插件页面就是不转化rem 搞了好久才发现还要另外配置文件记录一下安装插件安装postcss pxtorem npm install postcss pxtorem save dev 安装lib
Arduino ESP32和ESP8266开发板安装教程

视频教程链接 https www bilibili com video BV1dT411G7XX 1 安装第三方Arduino Package 下面以安装ESP32和ESP8266为示例方式1 在线安装第1步打开ArduinoIDE
window配置weex项目的android studio环境

weex 虽然做的是前端的工作但是越往后面觉的如果不会一门移动端的框架是多么的无力于是就开始了之前非常看好的weex框架该框架起初是由阿里巴巴内部开源的后面移交给apache成长历程可谓是一波三折和react native比起来有些
第十二届蓝桥杯省赛B组（C/C++）试题G砝码称重

题目原题链接问题描述有一架天平和 n 1 n 100 n 1 leq n l
数据结构每日一练：编程

先来个简单的练练手吧欢迎大佬们交流探讨给出一个有序的整数数组 A 和有序的整数数组 B 请将数组 B 合并到数组 A 中变成一个有序的升序数组数据范围 m n属于 0 100 注意 1 保证 A 数组有足够的空间存放 B 数组的元素
LeetCode 42. 接雨水

题目链接 42 接雨水思路分析与程序员面试金典面试题 17 21 直方图的水量相同 class Solution public int trap vector
js中字符串常用方法

1 concat 用于将一个或多个字符串拼接成一个新字符串不改变原字符串返回结果为新字符串 2 slice 提取某个字符串的一部分并返回一个新的字符串且不改变原字符串只有一个参数时取值范围为指定位置到字符串结尾两个参数时取头不
Transformers学习笔记4

Tokenizer nlp任务的输入都是raw text model的输入需要是inputs id 所以tokenzier将句子转换成inputs id 怎么转换呢有3种方式 word based split the text 按照空格来