人脸相似度对比

2023-10-29

由清晰的人脸照转化出的像素值矩阵,应当设计出什么样的函数 f(x)转化为特征值呢?这个问题的答案依赖于分类问题。即,先不谈特征值,首先如何把照片集合按人正确地分类?这里就要先谈谈机器学习。机器学习认为可以从有限的训练集样本中把算法很好地泛化。所以,我们先找到有限的训练集,设计好初始函数 f(x;w),并已经量化好了训练集中 x->y。如果数据 x 是低维的、简单的,例如只有二维,那么分类很简单,如下图所示:

上图中的二维数据 x 只有方形和圆形两个类别 y,很好分,我们需要学习的分类函数用最简单的 f(x,y)=ax+by+c 就能表示出分类直线。例如 f(x,y)大于 0 时表示圆形,小于 0 时表示方形。

给定随机数作为 a,c,b 的初始值,我们通过训练数据不断的优化参数 a,b,c,把不合适的 L1、L3 等分类函数逐渐训练成 L2,这样的 L2 去面对泛化的测试数据就可能获得更好的效果。然而如果有多个类别,就需要多条分类直线才能分出,如下图所示:

这其实相当于多条分类函数执行与&&、或||操作后的结果。这个时候还可能用 f1>0 && f2<0 && f3>0 这样的分类函数,但如果更复杂的话,例如本身的特征不明显也没有汇聚在一起,这种找特征的方式就玩不转了,如下图所示,不同的颜色表示不同的分类,此时的训练数据完全是非线性可分的状态:

这个时候,我们可以通过多层函数嵌套的方法来解决,例如 f(x)=f1(f2(x)),这样 f2 函数可以是数条直线,而 f1 函数可以通过不同的权重 w 以及激励函数完成与&&、或||等等操作。这里只有两层函数,如果函数嵌套层数越多,它越能表达出复杂的分类方法,这对高维数据很有帮助。例如我们的照片毫无疑问就是这样的输入。所谓激励函数就是把函数 f 计算出的非常大的值域转化为[0,1]这样较小的值域,这允许多层函数不断地前向运算、分类。

前向运算只是把输入交给 f1(x,w1)函数,计算出的值再交给 f2(y1,w2)函数,依次类推,很简单就可以得到最终的分类值。但是,因为初始的 w 权重其实没有多大意义,它得出的分类值 f*(x)肯定是错的,在训练集上我们知道正确的值 y,那么事实上我们其实是希望 y-f*(x)的值最小,这样分类就越准。这其实变成了求最小值的问题。当然,y-f*(x)只是示意,事实上我们得到的 f*(x)只是落到各个分类上的概率,把这个概率与真实的分类相比较得到最小值的过程,我们称为损失函数,其值为 loss,我们的目标是把损失函数的值 loss 最小化。在人脸识别场景中,softmax 是一个效果比较好的损失函数,我们简单看下它是如何使用的。

比如我们有训练数据集照片对应着 cat、dog、ship 三个类别,某个输入照片经过函数 f(x)=x*W+b,前向运算得到该照片属于这 3 个分类的得分值。此时,这个函数被称为得分函数,如下图所示,假设左边关于猫的 input image 是一个 4 维向量[56,231,24,2],而 W 权重是一个 4*3 的矩阵,那么相乘后再加上向量[1.1,3.2,-1.2]可得到在 cat、 dog、ship 三个类别上的得分:

从上图示例可见,虽然输入照片是猫,但得分上属于狗的得分值 437.9 最高,但究竟比猫和船高多少呢?很难衡量!如果我们把得分值转化为 0-100 的百分比概率,这就方便度量了。这里我们可以使用 sigmoid 函数,如下图所示:

从上图公式及图形可知,sigmoid 可以把任意实数转换为 0-1 之间的某个数作为概率。但 sigmoid 概率不具有归一性,也就是说我们需要保证输入照片在所有类别的概率之和为 1,这样我们还需要对得分值按 softmax 方式做以下处理:

这样给定 x 后可以得到 x 在各个类别下的概率。假定三个类别的得分值分别为 3、1、-3,则按照上面的公式运算后可得概率分别为[0.88、0.12、0],计算过程如下图所示:

然而实际上 x 对应的概率其实是第一类,比如[1,0,0],现在拿到的概率(或者可称为似然)是[0.88、0.12、0]。那么它们之间究竟有多大的差距呢?这个差距就是损失值 loss。如何获取到损失值呢?在 softmax 里我们用互熵损失函数计算量最小(方便求导),如下所示:

其中 i 就是正确的分类,例如上面的例子中其 loss 值就是 -ln0.88。这样我们有了损失函数 f(x)后,怎么调整 x 才能够使得函数的 loss 值最小呢?这涉及到微分导数。

深度学习人脸相似度检测

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

人脸相似度对比 的相关文章

随机推荐

  • C/C++面试:引用和指针的使用场合

    问 指针和引用作用都是间接引用其他对象 你如何决定何时使用指针 何时使用引用呢 应该使用指针的场合 有指向不存在对象的可能时 在任何情况下都不能使用指向空值的引用 一个引用必须总是指向某些对象 因此 如果你使用一个变量时并让它指向一个对象
  • 块设备、字符设备、裸设备和文件系统个人总结

    1 块设备 系统中可以随机访问 不需要按顺序 访问固定大小数据片 chunks 的设备称为块设备 这些数据片就称作块 硬盘是最常见的块设备 除此以外 还有软盘驱动器 CD ROM驱动器和闪存等 这里要注意 它们都是以安装文件系统的方式使用的
  • LeetCode Roman to Integer(罗马数字转换)

    思路 罗马数字是 阿拉伯数字传入之前使用的一种数码 罗马数字采用七个罗马字母作数字 即 1 X 10 C 100 M 1000 V 5 L 50 D 500 记数的方法 相同的数字连写 所表示的数等于这些数字相加得到的数 如 3 小的数字在
  • STC89C52系列单片机内部资源——中断系统

    中断是为使单片机具有对外部或内部随机发生的事件实时处理而设置的 中断功能的存在 很大程度上提高了单片机处理外部或者内部事件的能力 它也是单片机最重要的功能之一 是我们学习单片机必须要掌握 首先介绍单片机中断技术的优点 解决了快速主机与慢速I
  • FastGPT 接入飞书(不用写一行代码)

    FastGPT V4 版本已经发布 可以通过 Flow 可视化进行工作流编排 从而实现复杂的问答场景 例如联网谷歌搜索 操作数据库等等 功能非常强大 还没用过的同学赶紧去试试吧 飞书相比同类产品算是体验非常好的办公工具了 我司也是废了很大的
  • 操作系统学习(三)基本分段存储管理方式

    一 分段的定义 进程的地址空间按照自身的逻辑关系划分为若干段 例如 主程序 两个子程序 栈和一段数据 把进程分成5段 每段从0进行编址 段间要求连续 段内不要求 二 段表 1 分段系统的逻辑地址结构由段号 段名 和段内地址 段内偏移量 组成
  • uni-app中自定义动态底部tabbar(附示例源码)

    UNIAPP 自带的原生导航尽管流畅度非常好 但是在具体项目中有的时候需要动态设置以及特殊样式的 底部菜单 这个时候就需要自己去写一个自定义的底部tabbar 项目地址 fr uni app 1 比如需要特殊的图标 多出来一部分的 2 根据
  • 每日30条知识点-软件设计师知识点笔记

    立即寻址最快 寄存器寻址次之 直接寻址最慢 RISC 精简指令集计算机 特点 指令数量少 寻址方式少 长度固定 格式种类少 只提供load store指令访问存储器 以硬布线逻辑控制为主 单周期指令执行 系统总线用于主存以及外设部件连接 R
  • 数据结构和算法--树

    数据结构和算法是一种思想 理解了思想就是忘记了代码也能找回原来的记忆 二叉搜索树 二叉树 每个结点只存储一个关键字 等于则命中 小于走左结点 大于走右结点 AVL树 每个节点的左子树和右子树的高度最多差1的二叉搜索树 B B 树 多路搜索树
  • C++(26)——对象被优化以后才是最高效的C++编程

    对象应用优化 我们都知道 C语言和C 在程序执行中 都是通过调用一系列的函数来实现的 并且 很多时候 编译器会帮助我们做一系列的事情 比如 在编译类的成员方法的时候 编译器默认添加 this 指针 以此来确定是哪一个对象调用了该成员方法 得
  • C#上位机串口控制12864显示

    实现的效果 上面是用Proteus仿真的 对了如果自己想用proteus仿真需要安装下面这个软件 再看一下实物显示效果 先做上位机部分 为了程序一启动就把电脑上能用的串口号显示在下拉框中 private void Form1 Load ob
  • android使用Glide加载RelativeLayout、LinearLayout等背景图片

    转载请注明出处 http blog csdn net ym4189 article details 78712256 Glide框架大家应该都很熟悉 我们可以使用Glide加载网络图片 加载gif图片 使用简单 一般情况下我们都是使用Gli
  • 解决 adbd cannot run as root in production builds 问题

    这学期的一个android实验遇到的问题 经过借鉴多位大佬的文章已经解决 我的情况是android studio 不能很好的连接goole浏览器 所以不能下载其他版本 看到其他方法 https blog csdn net w69033324
  • 如何解决(变量或函数)重复定义的问题?

    错误提示 Objects light 1 axf Error L6200E Symbol gpio init multiply defined by gpio o and main o Not enough information to l
  • mongoose 实现DBRef查找所有子类信息

    产品表 var Mongoose require mongoose var Schema Mongoose Schema var Product new Schema image type String description type S
  • 【highlight】highlight 动态添加代码,样式失效

    在使用highlight 的时候 发现效果不错 然而当我用jQuery改变内容时 酷炫的高亮效果没了 原来hljs initHighlightingOnLoad 初始化的时候只会对其渲染一次 查阅资料发现 解决方案 code code 使用
  • s3 实现图片上传并返回图片路径

    一般做图片上传的的业务时我们接收的都是 MultipartFile 类型的文件 但是s3提供的图片上传只支持file 类型的文件上传 所以需要我先把 MultipartFile 转换为 file MultipartFile 转换为file
  • 递归树形结构的多级分类数据封装

    在日常开发中 我们经常需要查询一些树形结构的多级分类数据 如 多级菜单 商品三级分类 企业组织架构等等 我们以商品三级分类为例 大部分情况下 在同一张数据表中 无论是一级商品还是三级商品 每一条商品信息独占一行空间 通过 层级 字段 标明该
  • 金先生的 NutUI3 初体验

    冬日清晨 客服小王第一个来到了公司 还没顾得上脱下厚厚的羽绒服 桌上的电话就响了起来 您好 这里是京东客服 请问有什么可以帮到您的么 电话那头很嘈杂 呼啸的北风让来电人的声音很难被听清 而唯一可以被弄懂的就是对方一直在声嘶力竭反复强调的 开
  • 人脸相似度对比

    由清晰的人脸照转化出的像素值矩阵 应当设计出什么样的函数 f x 转化为特征值呢 这个问题的答案依赖于分类问题 即 先不谈特征值 首先如何把照片集合按人正确地分类 这里就要先谈谈机器学习 机器学习认为可以从有限的训练集样本中把算法很好地泛化