BERT - 池化输出与序列输出的第一个向量不同

2024-04-24

我在 Tensorflow 中使用 BERT，有一个细节我不太明白。根据文档（https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1 https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1），合并输出是整个序列的输出。根据原始论文，这似乎是句子开头的标记“CLS”的输出。

pooled_output[0]

但是，当我查看与句子中第一个标记相对应的输出时

setence_output[0,0,:]

我相信它对应于标记“CLS”（句子中的第一个标记），两个结果是不同的。

正如 Huggingface 文档中提到的输出伯特模型 https://huggingface.co/transformers/v3.0.2/model_doc/bert.html#bertmodel，池化器输出为：

序列的第一个标记（分类标记）的最后一层隐藏状态由线性层和 Tanh 激活函数进一步处理。

所以因为further processed by a Linear layer and a Tanh activation function，序列输出（CLS token）的第一个向量的输出和池化输出的值不同（但两个向量的大小相同）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BERT - 池化输出与序列输出的第一个向量不同的相关文章

Keras 模型中的 Softmax 采样

我考虑过的一些方法继承自 Model 类在tensorflow keras中采样softmax https stackoverflow com questions 52732145 sampled softmax in tensorflo
在 Tensorflow 中运行 CNN 时训练和测试的奇怪值

我一直在尝试使用自己的数据来训练和评估卷积神经网络其中包含 200 个训练图像和 20 个测试图像我的完整脚本在这里在 Tensorflow 中使用我自己的数据运行卷积网络时出错 https stackoverflow com que
使用 CustomCallback() 类在训练时实现冻结层

我正在尝试在 TensorFlow 中训练自定义 CNN 模型我想以某种方式在训练仍在运行时冻结特定时期模型的某些层我已经实现了冻结层但我必须在某些时期训练模型然后在我想要冻结的特定层中将可训练属性更改为 False 然后编译模型
使用 TFLite 量化模型的参数进行计算操作

我正在尝试使用量化的 Mobilenetv2 模型在硬件中实现图像分类here https www tensorflow org lite guide hosted models 为此我首先需要从头到尾重现推理过程以确保我理解对数据执行
SciKit-Learn 的分解模块中未安装 LatentDirichletAllocation

我在 SciKit Learn 包中遇到了一些奇怪的问题 SciKit Learn 包内有分解模块其中应包含 LatentDirichletAllocation 函数请参阅此处的文档 https scikit learn org s
如何在 Tensorflow 中计算 R^2

我正在尝试在 Tensorflow 中进行回归我不确定我计算 R 2 是否正确因为 Tensorflow 给出的答案与sklearn metrics r2 score有人可以看看我下面的代码让我知道我是否正确地实现了图中的方程谢谢
Colab TPU 调用 model.fit() 时出错：UnimplementedError

我正在尝试分类cifar10 图片 https www tensorflow org datasets catalog cifar10与谷歌 colab TPU 合作根据官方教程 https www tensorflow org guid
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
如何确保用户只提交英文文本

我正在构建一个涉及自然语言处理的项目由于nlp模块目前只处理英文文本所以我必须确保用户提交的内容不长只有几个单词是英文的是否有既定的方法来实现这一目标首选 Python 或 Javascript 方式如果内容足够长我会推荐一
使用 keras.utils.Sequence 多处理和数据库 - 何时连接？

我正在使用 Keras 和 Tensorflow 后端训练神经网络数据集不适合 RAM 因此我将其存储在 Mongo 数据库中并使用子类检索批次keras utils Sequence 一切正常如果我跑的话model fit gene
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
tf.data.Dataset 迭代器返回 Tensor("IteratorGetNext:1", shape=(None, 16), dtype=int32) 但无法获取张量的值

我正在尝试编写一个自定义模型其中我正在编写一个自定义train step功能我正在从自定义数据生成器创建 tf data Dataset 例如 tds tf data Dataset from generator tdg iter ar
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
如何以 HDF5 格式提供 caffe 多标签数据？

我想将 caffe 与矢量标签一起使用而不是整数我检查了一些答案似乎 HDF5 是更好的方法但后来我陷入了这样的错误 precision layer cpp 34 检查失败 outer num inner num bottom 1
可重用的 Tensorflow 卷积网络

我想重用来自Tensorflow 专业人士的 MNIST CNN 示例 http www tensorflow org tutorials mnist pros index md 我的图像尺寸为 388px X 191px 只有 2 个输出
为 Keras 编写自定义数据生成器

我将每个数据点存储在 npy 文件中其中shape 1024 7 8 我想通过类似的方式将它们加载到 Keras 模型中ImageDataGenerator 所以我编写并尝试了不同的自定义生成器但它们都不起作用这是我改编的一个this
Tensorflow：提要字典错误：您必须为占位符张量提供值

我有一个错误我无法找出原因这是代码 with tf Graph as default global step tf Variable 0 trainable False images tf placeholder tf float32
为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率？

我正在使用一个大数据集所以我尝试使用 train on batch 或适合 epoch 1 model Sequential model add LSTM size input shape input shape return seque
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平

随机推荐

如何理解批处理文件？

我之前没有使用批处理文件或 shell 脚本的经验我需要了解相关项目中使用的批处理文件所执行的操作有没有资源提供批处理文件命令的详尽列表以及每个命令的作用一旦您熟悉了一般的 BAT 文件信息使用其他用户在其他答案中发布的一些有用信息
在 Swift 中，如何迭代 UITableView 中的每个单元格，然后获取其属性？

我有一个通用的 UITableView 我想浏览每个可见的单元格我怎样才能快速做到这一点我目前正在我的一个项目中使用它 let cells self tableView visibleCells as Array
当我使用设置数据时，Flutter firestore 会覆盖数据

我一直在尝试将数据添加到我的 firestorm 数据库中的部分我有一个集合 gt 文档 gt 数据字段每当我使用 setData key value 时它总是会覆盖文档中已有的数据有没有办法解决那是因为什么setData obj
Windows Phone 8 HttpClient Get 方法返回奇怪的结果

我正在开发一个 Windows Phone 8 应用程序它将一些数据发送到服务器服务器执行该数据并返回结果可以随时查询服务器以获取当前执行的状态可以是正在初始化正在运行或已完成仅当执行处于完成状态时输出才可用用户可以选择通过按
Extjs 5，数据模型关联和加载嵌套数据

试图让这项工作我想在两个对象模型上加载嵌套数据 Ext application name MyApp launch function Ext define MyApp model Address extend Ext data Model
在javascript中读取excel是将长数字转换为指数

我正在使用 SheetJs 读取 Excel 文件但问题是它正在转换长数字例如3577888990098指数般3 52E 12 这个问题并不重复因为文件列可以是随机的系统不会知道哪些是数字哪些是字符串按字母顺序或两者那么如
什么是 AABB - 碰撞检测？

嗨我正在制作一个体素游戏Java在研究我需要学习的所有不同东西时我注意到很多游戏都使用AABB用于碰撞检测然后我记得看到AABB在我的世界中也有但是当我用谷歌搜索什么时AABB也就是说它只是提出了其他人的代码或者历史书上的某
Exchange Web 服务托管 API：访问其他用户项目

是否可以访问除登录用户之外的其他 Exchange 帐户的文件夹和项目我可以通过 Exchange Web 服务托管 API 执行此操作吗是的这是可能的但您应该知道其他用户的密码或以某种方式获取此凭据 NetworkCredenti
如何使用 @ngrx/data 自定义我的减速器？

我正在学习使用 ngrx data 确实使用该库我推进了很多代码但在个性化它时我遇到了问题我已经了解了如何将字段添加到集合中 export const entityMetadata EntityMetadataMap User add
iframe 不适用于 iOS（离子框架）

我为 iOS 和 Android 开发了一个带有 ionic 框架的应用程序安卓上没有问题但是尽管 iframe 在 Android 和浏览器中运行良好但它在 iOS 设备和模拟器中没有显示任何内容请帮我尝试将其添加到您的 co
C 中浮点数的比较

我有一个double打印为0 000000我试图将其与0 0f 不成功为什么这里有区别呢确定双精度数是否为零的最可靠方法是什么确定它是否足够接近零以将其打印为0 000000精确到小数点后六位例如 fabs d lt 0 00000
Google Maps API 多边形文物在缩放上显示

我有一个使用 JS API 构建的 Google 地图其中包含英国不同地区的多边形在 Chrome 已测试 v58 和 v60 上当用户使用滚轮放大或缩小时多边形的随机伪像会卡在地图上进一步缩放可以消除它们或显示不同的伪影在 F
在虚拟机共享目录上运行“grunt”

将 Vagrant 与 Windows 主机和 Linux 客户机一起使用 grunt尝试运行作业时返回以下错误据我了解在主机来宾共享目录中此文件路径超出了 Windows 的 255 个字符限制 npm ERR Error EPE
如何将 UIPopoverView 显示为地图视图的注释？（iPad）

在 iPad 的地图应用程序上当您点击图钉时您会看到带有 i 的普通注释而不是公开指示符进一步点击 i 会显示一个像这样的弹出视图控制器有没有办法可以轻松实现这一目标首先在地图上添加注释viewForAnnotation方法设
如何在 PyCharm 中自动运行 Main.py

我更喜欢在我的项目中使用类似 Java 的组织例如每个班级都有不同的 py文件和类Main 其中仅包含 main 函数每次我对一个类进行更改时我都需要单击 Main 并运行代码 Ctrl Shift F10 从那里我该如何定义我的
Rails 计数器缓存与计算

我有一个想要显示总计的集合其想法是为我需要的每个总计使用缓存然而我还需要深入研究数据集所以很可能无论如何我都必须加载该集合那么我应该仍然使用缓存还是只使用计算正如斯蒂芬奥唐纳 Stephen ODonnell 所说取决于藏品
如何使用 Kotlin 在 Android 中压缩照片

现在这是我从智能手机拍照的代码问题是图像非常大我想压缩它有一些帮助或想法吗谢谢你的信息执行 abrirCamara 方法 private fun abrirCamara val values ContentValues val
Facebook 帖子，图片托管在公共 CDN 上

Facebook 似乎屏蔽了我引用的任何由 CDN 支持的图像这是真的有办法解决这个问题吗是否有文档说明您可以在帖子的图片参数中引用哪些内容以及不能引用哪些内容是的 Facebook 禁止您在帖子分享等中使用其 CDN 中的图
如何将Stripe支付集成到Yii2中？

我有以下代码它运行时没有错误但它不会将资金插入到 Stripe 服务器上 Stripe 库已正确安装配置文件
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert

BERT - 池化输出与序列输出的第一个向量不同

BERT - 池化输出与序列输出的第一个向量不同 的相关文章

随机推荐

热门标签

BERT - 池化输出与序列输出的第一个向量不同的相关文章