vc++画线段的函数_word2vec的损失函数

2023-11-18

虽然word2vec常被当作无监督,但是其训练过程跟有监督基本差不多,原始的word2vec暂时不考虑负采样和huffman tree,其损失函数就是多元交叉熵:

多元交叉熵的公式:

以传统机器学习来说,这里的Zj就是某个类别的预测概率,yj=0或者1,我们假设有3个类别,模型对样本A的预测结果为[0.2,0.5,0.3],A的实际标签为[0,1,0],则仅仅计算中间为1的那一项(其实就是样本对应的真实类别单独计算一下损失,每一个样本计算的过程中对于单输出问题都是计算一次就行)

以cbow为例,

简单理解就是求平均(也可以是求和,gensim里的设计是两种方式都进行了实现)之后的结果【0.23,0.03,0.62,0.12......】经过输出层映射为一个v维的一维矩阵(v是词的数量)要和真实的标签【0,0,0,1,0,0,0.。。】尽量接近;这里ui表示的是输出层,vc表示的是平均之后的向量,他们的乘积加上softmax函数就是word2vec的模型的最终预测结果;

因此可以认为是一个超级多分类模型,类别的数量就是词(去重)的数量;

app2vec的加权体现在这个地方,根据不同的不同的app的gap来对不同的样本进行加权,具体可见我写的app2vec的论文分析在自然语言处理的专栏里;

然后是采用了huffman tree对其进行优化(类别太多用原始的多元交叉熵算死)

huffman tree是一种非线性的数据结构,其建树流程如下:

具体的例子如下:

生成了huffman tree,我们就可以进行愉快的huffman 编码了:

下面我们就针对cbow和skip gram的huffman编码模式进行解释:

可以看到,加入了huffman tree之后,原来的输出层由线性结构变成了树形结构,本来输出层是一个V行的输出(V代表词库的词的总数量),现在变成了一个树型结构,这个树的所有叶子节点的数量为V,即一个节点代表了一个词;那么为什么要这么设计呢?

以一个实际的例子来进行说明,假设此时我们的中心词是足球,那么从projection layer出来我们要经过四次分支才能到达上图中足球所对应的叶子节点,如上图,原始的huffman tree是将左枝叶定义为1,右枝定义为0,而word2vec将左枝定义为0,右枝定义为1,因此在w2v中,分到左枝就当作负类,分到右枝就当作正类,这里每一个节点都对应一个sigmoid变换;即,当Xw进入左枝的时候,则其被分为负类,对应的概率值为:

其中

表示sigmoid函数,Xw表示windows中的词的embedding的求和(或求平均)的结果向量,
表示当前节点对应的待训练的参数(没错,每一个节点都有一个w维的待训练参数(w表示的是embedding的维度大小)),反之如果被分为正类,则其对应的概率值为:

那么

这里的context指的是足球对应的windows内的上下文;

最终其目标函数的形式为:

w属于C表示对词表C中的每一个词w进行一次后面的运算;

lw表示词在huffman tree中对应的路径,那么Huffman tree(或者说分层softmax或者hierarchical softmax)是怎么起到优化性能的作用呢?

还是以上面的这个足球的例子为例,假设我们不适用huffman tree而是使用了原始的softmax:

则对应的“足球”作为中心词的单个样本其损失函数的计算过程中,分母部分要进行W次的累加(这里的W表示词库中词的数量),这还仅仅是一个词作为中心词的结果,可想而知,一轮训练下来非常的耗费时间,但是如果使用huffman tree,如上图,我们对于足球的计算只需要:

进行4次的sigmoid的计算,大大降低了计算的复杂度;

这里也可以很简单的实现样本加权的功能,在第一个求和符号后面添加一个权重函数就可以了;

而对于skip gram的分层softmax其结构如图:

对应的目标函数为:

可以看到,还是一个多输出的结构,在目标函数上的体现就是对多个输出对应的目标函数进行累加也就是这一项:

剩下的优化就交给梯度下降法和自动梯度求导的工具上吧~


接下来就介绍一个非常重要的优化手段,也是目前非常常用的一个构造伪正负样本的方法,negtive sampling(简称neg)是nce(noice constractive estimation)的简化版本,关于nce的研究可见:

磊爷:[译] Noise Contrastive Estimation​zhuanlan.zhihu.com

这里暂时不那么深入去研究了;

关于负采样:

word2vec原理(三) 基于Negative Sampling的模型​www.cnblogs.com

刘大佬的blog写的很通俗易懂;

比如我们有一个训练样本,中心词是w,它周围上下文共有2c个词,记为context(w)。由于这个中心词w,的确和context(w)在实际语料中真实存在,因此它是一个真实的正例。通过Negative Sampling采样,我们得到neg个和w不同的中心词wi,i=1,2,..neg,这样context(w)和wi们 就组成了neg个并不真实存在的负例。利用这一个正例和neg个负例,我们进行二元逻辑回归,得到负采样对应每个词wi对应的模型参数θi和每个词的词向量。

    从上面的描述可以看出,Negative Sampling由于没有采用霍夫曼树,每次只是通过采样neg个不同的中心词做负例,就可以训练模型,因此整个过程要比Hierarchical Softmax简单。

这个思路其实是非常灵活的,它可以本身无监督的问题转化为类似有监督的问题,这种方法在很多地方都有其应用

当然,这里的负采样不是简单的随机采样,word2vec采样的方法并不复杂,如果词汇表的大小为V,那么我们就将一段长度为1的线段分成V份,每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的,高频词对应的线段长,低频词对应的线段短。每个词w的线段长度由下式决定:

在word2vec中,分子和分母都取了3/4次幂如下:

(作者实验测试的效果)

在采样前,我们将这段长度为1的线段划分成MM等份,这里M>>V,这样可以保证每个词对应的线段都会划分成对应的小块。而M份中的每一份都会落在某一个词对应的线段上。在采样的时候,我们只需要从M个位置中采样出neg个位置就行,此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。在word2vec中,M取值默认为10^8;

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

vc++画线段的函数_word2vec的损失函数 的相关文章

  • 转 使用Android Studio 创建第一个Android 应用

    转自 https blog csdn net u013926216 article details 81977815 一 使用Android Studio 开发Android 应用的流程 二 一个简单的登陆界面程序 程序功能说明 创建And
  • 有关win10的C:/ProgramFiles\WindowsApps\文件系统错误(12007)问题

    win10电脑开机的时候 突然出现这二个系统错误 C ProgramFiles WindowsApps b9eced6f asusbatteryhealthcharging 1 0 7 0 86 qmba6 以及 C ProgramFile
  • mysql 如何转换数据结构_如何将SQL查询结果转换为PANDAS数据结构?

    在这个问题上的任何帮助将不胜感激 所以基本上我想对我的SQL数据库运行查询并将返回的数据存储为Pandas数据结构 我已附上查询代码 我正在阅读有关Pandas的文档 但是在识别查询的返回类型时遇到了问题 我试图打印查询结果 但没有提供任何
  • 从零开始用C语言实现图片解码播放器(有源码)

    1 项目描述 1 1 项目硬件平台介绍 1 硬件平台 九鼎公司的X210开发板 S5PV210 Cortex A8内核 2 软件平台 linux2 6 35 7内核 直接基于linux API操作 1 2 项目功能介绍 1 调用编译好的可执
  • java---模块化

    模块的基本使用 模块的基本使用步骤 创建模块 按照以前的讲解方式创建模块 创建包 创建类 定义方法 为了体现模块的使用 我们创建2个模块 一个是myOne 一个是myTwo 在模块的src目录下新建一个名为module info java的
  • hard_socnet靶机(vulnhub)

    这个靶机的难度很高 慢慢摸索 接触新知识 首先这个靶机是2020 年的 我们如今2022年 2021出现了新的内核漏洞 CVE 2021 3493 我们这里可以利用 也成功了 但是 如果我们就在2020做此靶机怎么办呢 这里分享了两种打靶思
  • c#文件名去掉后缀_C# 怎么去掉文件名后缀

    public class test private static List getData String path List list new ArrayList lt gt try File f new File path File fs
  • FairGUI 坐标和Unity坐标转换

    一 FairGUI教程文档 https www bookstack cn read fairygui unity md 坐标系统 坐标原点 FairyGUI是以屏幕左上角为原点的 Unity的屏幕坐标是以左下角为原点的 一般这个转换都不需要
  • CNN卷积神经网络实现手写数字识别(基于tensorflow)

    1 1卷积神经网络简介 文章目录 1 1卷积神经网络简介 1 2 神经网络 1 2 1 神经元模型 1 2 2 神经网络模型 1 3 卷积神经网络 1 3 1卷积的概念 1 3 2 卷积的计算过程 1 3 3 感受野 1 3 4 步长和参数
  • python3_面向对象

    面向对象 魔术方法 描述器Descriptors 槽位slots 面向对象 OOP Object Oriented Programing 面向对象是认识世界的一种方法论 一切皆对象 类class 抽象的概念 一类具有共同特征的事物的集合 用
  • 51单片机 学习之旅[3] 中断-定时器

    中断 就是 单片机main运行的时候 如果外部传来一个信号 那么就暂时停止现在的正在处理的 事情 转而去处理 这个信号 处理这个信号完毕以后 又返回去main去继续处理之前的 有个比较好的例子是 你正在晾衣服 你正在晾衣服 突然水烧开了 你
  • 文件IO(三.文件属性和目录)

    1 文件截短 truncate NAME truncate ftruncate truncate a file to a specified length truncate ftruncate用来把文件截短到指定的长度 SYNOPSIS i
  • 2021-03-30

    远程调试 使用特定JVM参数运行服务端代码 要让远程服务器运行的代码支持远程调试 则启动的时候必须加上特定的JVM参数 这些参数是 Xdebug Xrunjdwp transport dt socket suspend n server y
  • 全屏Activity弹出键盘不顶起布局

    最近遇到的一个问题是全屏Activity中要求弹出键盘不顶起布局 首先windowSoftInputMode的取值是有多个的 在全屏场景下adjustPan是没有用的 需要使用adjustResize首先确保键盘不顶起布局 android
  • 黑苹果 MacOS 10.15 Catalina 安装详细教程带工具资料

    图文教程悦享地址 点击打开链接 视频教程 B站地址 点击打开链接 一 准备工作 一个8G以上的U盘 有的U盘标的是8G 实际只有X 实际容量小于7 5G的会失败 MacOS镜像 TransMac 刻录工具 DiskGenius 分区工具 E
  • 机器学习DGA域名检测

    恶意域名 恶意域名是指黑客在攻击过程中或者对目标网络实施控制时 使用dga算法生成的域名 这种域名通常硬编码在恶意软件中 我们在做流量分析时不仅要通过流量的指纹特征识别威胁 也可以通过检测是否解析了恶意域名来判断网络中是否存在肉鸡 传统DG
  • IDEA编译报错:java: 未报告的异常错误X; 必须对其进行捕获或声明以便抛出

    IDEA编译Flink源码时报错 java 未报告的异常错误X 必须对其进行捕获或声明以便抛出 原因是环境变量配置的是JDK8 Flink部分代码是基于JDK11编写的 将JDK升级为JDK11 重新编译即成功
  • 推荐一款基于XNA的开源游戏引擎《Engine Nine》

    一 前沿导读 XNA是微软基于 Net部署的下一代3D 2D游戏开发框架 其实XNA严格来说类似下一代的DirectX 当然不是说XNA会取代DirectX 但是基于XNA我们对于面向XBOX360 WP等系列其他平台的移植成本非常的低 据
  • 从系统里面查看服务器端口,从系统里面查看服务器端口号

    从系统里面查看服务器端口号 内容精选 换一换 已成功登录Java性能分析 待安装分析辅助软件的服务器已开启sshd 已安装JDK并配置环境变量 打开 添加目标环境 窗口 如图1所示 参数说明如表1所示 添加目标环境添加目标环境参数说明参数说

随机推荐

  • shell脚本简介+编写

    1 常用Linux命令 2 Linux下脚本编写 3 windows下CMD常用命令 文章目录 一 变量 1 系统预定义变量 2 自定义变量 3 特殊变量 n n n
  • C++ 标准库函数 bind

    背景 可调用对象 对于一个对象或者一个表达式 如果可以对其使用调用运算符 则称为可调用对象 调用形式 一种调用形式对应了一个函数类型 指明了调用返回类型以及传递的参数类型 比如 int int int std bind 概念 可将 bind
  • 勇于尝试新鲜事物,利于项目来积累学习经验

    很多人都会根据企业的发展需求 再选择自己的开发方向 其实没必要完全根据企业的发展路线来决定的个人的职业路线 正如 黑客与画家 和 黑客帝国 所表达的 程序员应该将白天的工作作为一种职业相关性的经验积累 而将晚上的时间用于尝试新的技术和领域
  • matlab 学习算法,matlab深度学习算法合集

    实例简介 CAE CNN NN SAE等等matlab版深度学习算法合集 以及相关测试数据 拿到就能直接用 实例截图 核心代码 DeepLearnToolbox matlab DeepLearnToolbox CAE caeapplygra
  • java中空值怎么表示_JAVA中空值null与字符串null含义的区分

    java中字符串型的量 如 String s 初始化为空时 s null 打印出来为null 但是对他不能进行 isEmpty 和 length 的操作 会抛出空指针异常 给他们后边添加字符串后 s s yuanyuan 打印时前边会保留n
  • 2019年全国一二线城市程序员工资大调查

    我在4月1日到3日之间 抓取了某招聘网站的软件和互联网类招聘数据40万条 其中通过程序判断为程序员的14万条 地域方面 我选择了24个主要城市 这里的程序员包括普通程序员 架构师和算法工程师 美工等不计算在内 这点和2017年不同 如果你只
  • ftp

    1 ftp上传文件 1 1相关依赖
  • OpenMMLab_0【简介】

    1 项目动机 统一的深度学习框架 统一的算法框架和生态 自2018年开源以来已经能够实现很多算法 2 总体现状 3 总体框架概览 3 1 算法训练 部署一体化 3 2 算法框架介绍 MMDetection MMDetection3D 7 个
  • Bootstrap入门(一)

    前言 大家好 我是九歌 今天我要分享的内容是Bootstrap的入门 首先老规矩先上思维导图 提示 以下是本篇文章正文内容 下面案例可供参考 一 Bootstrap 学习一门新的技术我们终究都逃不过三个W What Why Where 1
  • Vue3.0

    teleport Teleport 提供了一种干净的方法 允许我们控制在 DOM 中哪个父节点下呈现 HTML 而不必求助于全局状态或将其拆分为两个组件
  • 《C++ Primer》学习笔记(十五):面向对象编程

    C Primer 学习笔记 十五 面向对象编程 抽象基类 访问控制与继承 构造函数与拷贝控制 文本查询程序再探 练习 面向对象编程的核心思想是数据抽象 继承和动态绑定 在C 语言中 当我们使用基类的引用 或指针 调用一个虚函数时将发生动态绑
  • python跟易语言的爬虫_用易语言写个简单的小爬虫其中的关键点

    一 请求头 ctrl L快捷键创建变量 变量名 类型 协议参数 类 POST数据类 请求头数据 文本型 协议参数 添加 v 4 52 0 请求头数据 协议参数 获取协议头数据 二 请求参数比如post 变量名 类型 请求data参数 类 P
  • 【负荷预测】基于神经网络的负荷预测和价格预测(Matlab代码实现)

    目录 1 概述 2 基于神经网络的负荷预测 Matlab实现 2 1 代码 2 2 结果 2 3 回归树模型的进一步改进 3 基于神经网络的价格预测 Matlab代码实现 4 阅读全文 Matlab代码 1 概述 这个例子演示了用MATLA
  • 《软件调试的艺术》学习笔记——GDB使用技巧摘要(3)——程序崩溃处理

    程序为什么会崩溃 内存中的程序布局 当某个错误导致程序突然和异常地停止执行时 程序崩溃 迄今为止最为常见的导致程序崩溃的原因是试图在未经允许的情况下访问一个内存位置 硬件会感知这件事 并执行对操作系统的跳转 Unix系列的平台上 操作系统一
  • VS2015下用Qt Designer创建对话框

    目录 1 Qt Designer新建文件 选择适合的模板 布局窗口 2 在右侧属性窗口修改名称为需要的名称 3 文件另存为对象名称一样的xxx ui文件 4 创建xxx cpp和xxx h文件 加入工程 也可以在qt creator中创建
  • sql-labs闯关38~45

    sql labs闯关38 45 友善爱国平等诚信民主友善爱国爱国友善平等诚信自由平等友善平等法治诚信民主民主 复习笔记1 内容 sql labs第38关 GET请求 堆叠查询注入 字符型 sql labs第39关 GET请求 堆叠查询注入
  • 30分钟从零开始搭建并部署个人知识库(超详细)

    前言 网上关于动态文档生成工具有很多如 Docsify VuePress Docute Hexo这些都是一些非常优秀的文档生成工具 本章主要介绍如何快速使用Docsify搭建一个快捷 轻量级的个人 团队文档 并且通过Github Pages
  • dracut 基本介绍

    dracut 基本介绍 dracut 维基 https dracut wiki kernel org index php Main Page http www 360doc com content 13 0428 09 12139495 2
  • 计算机网络系列五 -- 运输层详解

    1 运输层 1 1 运输层的定义 运输层是 OSI 七层参考模型的第四层 主要功能为应用层提供通信服务 它即是面向通信的最高层 也是用户功能的最底层 在计算机网络中 真正进行数据通信的是两个主机的进程 由于一个主机中有多个进程同时在通信 而
  • vc++画线段的函数_word2vec的损失函数

    虽然word2vec常被当作无监督 但是其训练过程跟有监督基本差不多 原始的word2vec暂时不考虑负采样和huffman tree 其损失函数就是多元交叉熵 多元交叉熵的公式 以传统机器学习来说 这里的Zj就是某个类别的预测概率 yj