NEZHA知识点

2023-11-15

1. 华为NEZHA

主要是将bert之后预训练模型的长处拼接在一起
1.相对位置编码
Bert的位置编码是直接初始化一个embedding，然后通过预训练去学的，是固定位置编码。
NEZHA使用函数式相对位置编码，在qk时，加在k上，表示q和k的相对距离；在αV时，加在V上，表示q和v的相对位置

2. 全词掩盖(Whole Word Masking，wwm)

这个策略和bert_wwm以及百度的ernie没啥差别，就是在生成预训练样本过程时，不再采用随机掩盖token的方式，而是随机掩盖词组的方式，这样能充分让模型学习词汇信息。在初始的BERT中，每个token或者每个汉字都是随机覆盖的。而 NEZHA 预训练模型，则采用了全词覆盖（WWM）策略，当一个汉字被覆盖时，属于同一个汉字的其他汉字都被一起覆盖。

3. 混合精度训练

该技术可以将训练速度提高2-3倍，还可以减少模型的空间消耗，从而可以在预训练过程中使用更大的batch。
传统的深度神经网络训练使用 FP32 （即单精度浮点格式）来表示训练中涉及的所有变量（包括模型参数和梯度）；而混合精度训练在训练中采用了多精度。具体来说，它保存参数的FP32版本（称为主权重），即在每次训练迭代中，将主权重舍入为FP16（即半精度浮点格式），并使用 FP16 格式存储的权重执行向前和向后传递；最后将梯度转换为FP32格式，并使用FP32梯度更新主权重。（训练过程使用半精度，训练完将FP16转为FP32，更新主权重，推理使用单精度）

4. LAMB Optimizer

LAMB 优化器是专为深度神经元网络大batch size同时分布式训练而设计。尽管使用大的batch size训练可以有效地加快 DNN 训练速度，但是如果不仔细调整学习率，当batch size的大小超过某个阈值(如果batch size极大，loss为它们之和（参数的梯度由loss决定？？），学习率必须极小？？？)时，模型的性能可能会受到很大影响。LAMB 优化器则不需要手动调整学习率，而是采用了一种通用的自适应策略。优化器通过使用非常大的batch size(实验中高达30k以上)来加速BERT的训练，而不会导致性能损失，甚至在许多任务中获得最先进的性能。值得注意的是，BERT的训练时间最终从3天显著缩短到 76 分钟。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NEZHA知识点的相关文章

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

使用Kotlin做一个简单的HTML构造器

最近在学习Kotlin 看到了Kotlin Koans上面有一个HTML构造器的例子很有趣今天来为大家介绍一下最后实现的效果类似Groovy 标记模板或者Gradle脚本就像下面这是一个Groovy标记模板这样的 html lan
Linux 下查看进程运行时长

因为有一个Java程序运行中会持续输出大量的日志文件可能导致磁盘空间不足为了规避这个风险需要根据程序运行时长估算磁盘使用量 1 查看进程的PID ps ef grep java 2 指定进程查看运行时长 PID ps o etime
SpringBoot优化

一 SpringBoot全局异常处理任何项目发生异常是不可避免的使用全局异常捕获发生的异常是十分必要的 SpringBoot框架对全局异常捕获提供了很好的支持并且操作非常简单我们只需要创建一个类和一个方法并添加两个注解 Cont
LSTM分类模型

LSTM文本分类模型本文主要固定一个文本分类的流程分为三个部分数据处理对分类文本数据集做简单的预处理模型数据准备处理上一步的结果得到模型的输入样本模型搭建和训练流程模型使用BiLSTM 训练过程可以使用cpu或者GPU t
shell中的for循环的用法(C语言式)

C语言式的for循环用法 exp1 exp2 exp3 是三个表达式其中exp2是判断条件 for循环根据exp2的结果来决定是否继续下一次的循环 statements是循环体语句可以有一条也可以有多条 do和done是shell中
Kotlin和Java中的IO操作

Kotlin的特性 1 Kotlin提供了非常多 File Stream Reader Writer的拓展方法 2 使用use拓展自动关闭资源 3 小文件一次性读写操作一首先来看看繁琐的JavaIO操作来读取一个文件 package
有1、2、3、4四个数字，可以组成多少个互不相同且无重复的三位数？都是多少？

这个题呢顾名思义就是说一个三位数的每一位都是1 2 3 4 个位十位百位上的数字不能重复编程原理很简单分别定义三个变量代表个位十位百位然后使用for循环嵌套每一层循环代表一位数如果个位十位百位都不相同则输出程序如下 incl
微信订阅消息模板推送报错47003 data.time.value i，及解决方案

今天又是枯燥的一天依然敲着代码客户有个微信消息推送的需求找了下官方文档微信消息推送文档大致看了一下需要模板ID和微信后台的小卡片参数名随即便敲起了代码首先定义模板类代码如下 public class Template pr
微信小程序实现一些炫酷的loading动画

1 实现效果 2 实现原理伪元素 css3动画 transform 3 实现代码从上到下从左到右依次的代码如下
三款记事本替代工具哪个最好用？

三款记事本替代工具哪个最好用 http www sina com cn 2008年08月27日 08 35 IT168 com Windows操作系统中自带了不少的实用小程序但是它们大都功能简陋有时无法满足我们的使用此外还有一些Wi
MatplotLib 第二部分

1 import numpy as np 2 import pandas as pd 3 import matplotlib pyplot as plt 4 5 导入数据 6 df pd read excel d test xlsx 7 p
在VS中使用命令行参数

在VS工具中若要运行带有命令行参数的程序有两种方法方法一在命令提示符中输入要运行的exe的文件名和要输入的参数各参数之间用空格隔开如exe文件为test exe 则输入 test 参数1 参数2 参数n 注意 exe文件应放在C
我的软件渲染器终于初步完成了～

记录一个大好事在 2021年第一个月的上旬我的软件着色器终于初具雏形了中间参考了很多资料最初是知乎上的系列教程 https zhuanlan zhihu com p 141210744 这个教程是基于 OpenGL 右手坐标系
什么是准双向口，双向口?

C51的说明书上说 Because Ports 1 2 and 3 have fixed internal pullups they are sometimes called quasi bidirectional ports When c
golang 杂技

Swap 记录一个骚操作交换数组的两个元素 package main import fmt func main m int 1 2 Swap m 0 1 fmt Println m 2 1 func Swap i int a b int
C语言方波转换正弦波,方波转换成正弦波电路

方波转换成正弦波电路即利用RDD104可选的4各十进制CMOS除法器和一个MSFS5 开关电容滤波器来构建一个双芯片失真率为0 2 的正弦波源 RDD104有两个引脚可以从四个除法器divide by 10 divide by 100
离线数仓经验之谈三-数仓流程规范

数仓流程规范目录 1 目的 2 适用范围 3 总体流程 3 1 ETL开发流程 3 1 1 需求分析 3 1 2 数据来源与数据探查 3 1 3 数据模型设计 3 1 4 ETL开发 3 1 5 测试 3 1 6 ETL上线 3 1 7
想入手显示器，恳请粉丝带我推荐，必有重谢！

坏了一个显示器本来家里好好的两个显示器其中1个有点雪花亮线当时特地买的EIZO 考虑已无维修价值打算换一个显示器但是某宝搜了一圈已经被各种参数和品牌搞晕掉 2K 4K 准4K IPS 60hz 144HZ 高刷曲面屏带鱼屏
队列数据类型及Python实现

1 队列的实现队列是一种有次序的数据集合其特征是新数据项的添加总发生在一端通常称为尾端 rear 而现存数据类型的移除总发生在另一端通常称为首段 front 当数据项加入队列首先出现在队尾随着队首数据项的移除它逐渐接近队首
NEZHA知识点

1 华为NEZHA 主要是将bert之后预训练模型的长处拼接在一起 1 相对位置编码 Bert的位置编码是直接初始化一个embedding 然后通过预训练去学的是固定位置编码 NEZHA使用函数式相对位置编码在qk时加在k上表示q和