计算机英语学习笔记&深度学习

2023-10-31

学习资料来源于:Robust Face Recognition via Multimodal Deep Face Representation----Changxing Ding, Student Member, IEEE, Dacheng Tao, Fellow, IEEE-----2015
Words:
CNNs convolutional neural networks 卷积神经网络
SAE three-layer stacked auto-encoder 三层堆叠自动编码器
multimodal data 多模态数据
complementary 互补的
high-dimensional feature vector 高维特征向量
face recognition 人脸识别
Local Binary Patterns (LBP) 局部二值模式
Local Phase Quantization (LPQ) 局部相位量化
DualCross Patterns (DCP) 双交叉模式
Binarised Statistical Image Features (BSIF) 二值化图像统计
elaborately 精心地
optimize 使最优化,使可能有效
ReLU nonlinearity ReLU 非线性
multiple modalities 多模态
aggressive data augmentation 积极的数据增强
multi-stage training 多阶段训练
L2 normalization L2 归一化
gray-level image 灰度图像
RGB image RGB图像(加色模式)
gradient map 梯度图
convolutional layers 卷积层
max-pooling layers 最大池层
max-pooling layers 平均池层
fully-connected layers 全连通层
orthogonal projection 正交投影
Joint Bayesian (JB) model 联合贝叶斯模型
the nearest neighbor (NN) classifier 近邻分类器
supervised paradigm 监督范式

Sentence:(值得学习的部分都标示了加粗/斜体)
All the CNNs are trained using a subset of 9,000 subjects from the publicly available CASIA-WebFace database, which ensures the reproducibility of this work. Using the proposed single CNN architecture and limited training data, 98.43% verification rate is achieved on the LFW database. Benefited from the complementary information contained in multimodal data, our small ensemble system achieves higher than 99.0% recognition rate on LFW using publicly available training set.
所有CNNs都使用公开的CASIA-WebFace数据库中的9000名受试者子集进行培训,这确保了这项工作的可重复性。 利用所提出的单一CNN体系结构和有限的训练数据,在LFW数据库上获得了98.43%的验证率。 利用多模态数据中包含的互补信息,我们的小型集成系统在使用公开的训练集的LFW上获得了高于99.0%的识别率。

…,therefore faces in these images usually exhibit rich variations in pose, illumination, expression, and occlusion, as illustrated in Fig. 1.
因此,这些图像中的人脸通常在姿势、光照、表情和遮挡方面表现出丰富的变化,如图所示 1

Accurate face recognition depends on high quality face representations. Good face representation should be discriminative to the change of face identify while remains robust to intra-personal variations. Conventional face representations are built on local descriptors, e.g., Local Binary Patterns (LBP) [3], Local Phase Quantization (LPQ) [4], [5], DualCross Patterns (DCP) [6], and Binarised Statistical Image Features (BSIF) [7]. However, the representation composed by local descriptors is too shallow to differentiate the complex nonlinear facial appearance variations. To handle this problem, recent works turn to Convolutional Neural Networks (CNNs) [8], [9] to automatically learn effective features that are robust to the nonlinear appearance variation of face images. However, the existing works of CNN on face recognition extract features from limited modalities, the complementary information contained in more modalities is not well studied.
准确的人脸识别依赖于高质量的人脸表示。 良好的人脸表征应该对人脸识别的变化具有识别性,同时对人体内的变化保持鲁棒性。 传统的人脸表示建立在局部描述符上,例如,局部二值模式(LBP)[3]、局部相位量化(LPQ)[4]、[5]、双交叉模式(DCP)[6]和二值化统计图像特征(BSIF)[7]。 然而,由局部描述子组成的表示方法过于肤浅,难以区分复杂的非线性人脸容貌变化。 为了解决这一问题,最近的工作转向卷积神经网络(CNNs)[8],[9]来自动学习有效的特征,这些特征对人脸图像的非线性外观变化具有鲁棒性。 然而,现有的CNN人脸识别工作都是从有限的模态中提取特征,对更多模态中所包含的互补信息没有进行很好的研究。

Inspired by the complementary information contained in multi-modalities and the recent progress of deep learning on various fields of computer vision, we present a novel face representation framework that adopts an ensemble of CNNs to leverage the multimodal information. The performance of the proposed multimodal system is optimized from two perspectives. First, the architecture for single CNN is elaborately designed and optimized with extensive experimentations. Second, a set of CNNs is designed to extract complementary information from multiple modalities, i.e., the holistic face image, the rendered frontal face image by 3D model, and uniformly sampled face patches. Besides, we design different structures for different modalities, i.e., a complex structure is designed for the modality that contains the richest information while a simple structure is proposed for the modalities with less information. In this way, we strike a balance between recognition performance and efficiency. The capacity of each modality for face recognition is also compared and discussed.
受多模态所包含的互补信息的启发,结合计算机视觉各个领域深度学习的最新进展,我们提出了一种新的人脸表示框架,该框架采用CNNs集合来充分利用多模态信息。 从两个角度对所提出的多模态系统的性能进行了优化。 首先,通过大量的实验,对单个CNN的体系结构进行了精心设计和优化。 其次,设计了一套CNNS算法,用于从整体人脸图像、3D模型渲染的正面人脸图像和均匀采样的人脸贴片等多种模式中提取互补信息。 此外,我们还针对不同的模态设计了不同的结构,即对信息最丰富的模态设计了复杂的结构,对信息较少的模态设计了简单的结构。 这样,我们在识别性能和效率之间取得了平衡。 并对各种模式的人脸识别能力进行了比较和讨论。

As shown in Fig. 2, MM-DFR is essentially composed of two steps: multimodal feature extraction using a set of CNNs, and feature-level fusion of the set of CNN features using SAE.
如图所示 2、MM-DFR算法主要由两个步骤组成:利用一组CNNs进行多模态特征提取;利用SAE对这组CNN特征进行特征级融合。

Different from previous works that randomly sample a large number of image patches…
不同于以往随机抽取大量图像块的工作…

In this section, the face matching problem is addressed based on the proposed MM-DFR framework. Two evaluation modes are adopted: the unsupervised mode and the supervised mode. Suppose two features produced by MM-DFR for two images are denoted as y1 and y2, respectively. In the unsupervised mode, the cosine distance is employed to measure the similarity s between y1 and y2.
在这一部分中,基于所提出的MM-DFR框架来解决人脸匹配问题。 采用两种评价模式:无监督模式和有监督模式。 假设MM-DFR为两幅图像产生的两个特征分别表示为Y1和Y2。 在无监督模式下,利用余弦距离度量Y1和Y2之间的相似性S。

Five sets of experiments are conducted. First, we empirically justify the advantage of dense features for face recognition by excluding two ReLU nonlinearities compared with previous works. The performance of the proposed single CNN model is also compared against the state-of-the-art CNN models on the LFW database. Next, the performance of the eight CNNs contained within the MM-DFR framework is compared on face verification task on LFW. Then, the fusion of the eight CNNs by SAE is conducted and different nonlinearities are also compared. We also test the performance of MM-DFR followed with the supervised classifier JB. Lastly, face identification experiment is conducted on the CASIA-WebFace database with our own defined evaluation protocol.
进行了五组实验。 首先,我们通过排除两个RELU非线性,从经验上证明了密集特征在人脸识别中的优势。 本文还将所提出的单个CNN模型与LFW数据库上的最先进的CNN模型进行了性能比较。 然后,比较了MM-DFR框架中包含的8个CNNs在LFW人脸验证任务中的性能。 然后,利用SAE对这8种CNN进行了融合,并对不同的非线性进行了比较。 我们还用监督分类器JB测试了MM-DFR的性能。 最后,在CASIA-WebFace数据库上,利用自定义的评价协议进行了人脸识别实验。

In this experiment, we evaluate the role of ReLU nonlinearity using CNN-H1 as an example. For fast evaluation, the comparison is conducted with the simple NN1 structure described in Table I and only the softmax loss is employed for model training. Performance of CNN-H1 using the NN2 structure can be found in Table IV. Two paradigms2 are followed: 1) the unsupervised paradigm that directly calculate the similarity between two CNN features using cosine distance metric. 2) the supervised paradigm that uses JB to calculate the similarity between two CNN features. For the supervised paradigm, we concatenate the CNN features of the original face image and its horizontally flipped version as the raw representation of each test sample. Then, we adopt PCA for dimension reduction and JB for similarity calculation. The dimension of the PCA subspace is tuned on the View 1 data of LFW and applied to the View 2 data. Both PCA and JB are trained on the CASIA-WebFace database. For PCA, to boost performance, we also re-evaluate the mean of CNN features using the 9 training folds of LFW in 10-fold cross validation.
在本实验中,我们以CNN-H1为例来评估RELU非线性的作用。 为了快速评估,与表I中描述的简单NN1结构进行了比较,并且仅使用Softmax损失进行模型训练。 使用NN2结构的CNN-H1的性能可以在表IV中找到。 两个范例2是:1)无监督范例,直接计算两个CNN特征之间的相似度利用余弦距离度量。 2)使用JB计算两个CNN特征之间相似度的监督范式。 对于监督范式,我们将原始人脸图像及其水平翻转版本的CNN特征串联起来作为每个测试样本的原始表示。 然后,我们采用PCA进行降维,JB进行相似度计算。 在LFW的视图1数据上调整PCA子空间的维数,并将其应用于视图2数据。 PCA和JB都在CASIA-WebFace数据库上接受培训。 对于PCA,为了提高性能,我们还在10倍交叉验证中使用LFW的9个训练折叠来重新评估CNN特征的均值。

The above three experiments have justified the advantage of the proposed CNN structures. In this experiment, we further promote the performance of the proposed framework. We show the performance of MM-DFR with JB, where the output of MM-DFR is utilized as the signature of the face image. We term this face recognition pipeline as MM-DFR-JB. For comparison, the performance achieved by CNN-H1 with the JB classifier is also presented, denoted as “CNN-H1 + JB”. The performance of the two systems is tabulated in Table V and the ROC curves are illustrated in Fig. 9. It is shown that MM-DFR considerably outperforms the single modalbased approach, which indicates the fusion of multimodal information is important to promote the performance of face recognition systems. By excluding the five labeling errors in LFW, the actual performance of MM-DFR-JB reaches 99.10%. Our simple 8-net based ensemble system also outperforms DeepID2 [9], which includes as much as 25 CNNs. Some more recent approaches that were published after the submission of this paper, e.g. [38], [31], achieve better performance than MM-DFR. However, they either employ significantly larger private training dataset or considerably larger number of CNN models. In comparison, we employ only 8 nets and train the models using a relatively small training set.
以上三个实验证明了所提出的CNN结构的优越性。 在这个实验中,我们进一步提升了所提出框架的性能。 利用MM-DFR的输出作为人脸图像的特征,并用JB对MM-DFR的性能进行了验证。 我们把这个人脸识别管道称为MM-DFR-JB。 为了比较,本文还给出了CNN-H1与JB分类器的性能,表示为“CNN-H1+JB”。 两种系统的性能如表V所示,并在图中说明了ROC曲线 9. 结果表明,MM-DFR算法的性能明显优于单一模态识别算法,说明多模态信息的融合对提高人脸识别系统的性能具有重要意义。 剔除LFW中的5个标记错误,MM-DFR-JB的实际性能达到99.10%。 我们简单的基于8网的集成系统性能也优于Deepid2[9],后者包含多达25个CNN。 本文提交后发表的一些新方法,如[38]、[31],取得了比MM-DFR更好的性能。 然而,它们要么使用更大的私人训练数据集,要么使用更多的CNN模型。 相比之下,我们只使用8个网络,并使用相对较小的训练集来训练模型。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算机英语学习笔记&深度学习 的相关文章

  • 图神经网络与智能教育:创新教育技术的未来

    导言 图神经网络 GNNs 和智能教育技术的结合为教育领域注入新活力 本文深入研究二者的结合可能性 涉及各自侧重 当前研究动态 技术运用 实际场景 未来展望 并提供相关链接 1 图神经网络与智能教育的结合方向 1 1 图神经网络在教育技术中
  • 小学二三年级入门信奥赛,如何从Scratch进入C++的学习

    小学生几年级适宜开始学习C 这是讨论的比较热烈 也是比较热门的话题 小学生适宜几年级开始学C 小学生适宜几年级开始学C CSDN博客 simple happiness 信息学规划 北京二年级学生图形化过二级想往信奥靠拢如何准备 信息学规划
  • 论文查重部分算不算重复率呢

    大家好 今天来聊聊论文查重部分算不算重复率呢 希望能给大家提供一点参考 以下是针对论文重复率高的情况 提供一些修改建议和技巧 可以借助此类工具 论文查重部分算不算重复率呢 在论文查重过程中 查重部分是否计入重复率是一个关键问题 本文将从七个
  • 实时获取建材网商品数据:API实现详解与代码示例

    一 引言 随着电子商务的快速发展 实时获取商品数据对于企业决策 市场分析以及数据驱动的营销策略至关重要 建材网作为国内知名的建材信息平台 提供了API接口 使得第三方开发者可以方便地获取商品数据 本文将详细介绍如何使用 建材网的API接口
  • 我当年自学黑客(网络安全)的一些心得!(内附学习笔记)

    前 言 写这篇教程的初衷是很多朋友都想了解如何入门 转行网络安全 实现自己的 黑客梦 文章的宗旨是 1 指出一些自学的误区 2 提供客观可行的学习表 3 推荐我认为适合小白学习的资源 大佬绕道哈 文末有福利 一 自学网络安全学习的误区和陷阱
  • 从外卖员到程序员,自学3年终于转行成功,三面“拿下”拼多多

    前言 先来自我介绍 老家农村 家里好不容易把我送到大城市读书 大学非985 211 但在我们老家 能出一个本科大学生也是非常不容易的 因为农村信息的相对闭塞 我对大学专业一无所知 加上分数并非前茅 最后被调剂一个我并不喜欢的专业 这里就不透
  • 阿里巴巴大神发布的Java零基础笔记,实战教程多到手软,跪了

    前言 现值金九银十之际 是面试高峰季 很多学校开始校招 也是跳槽转行的最佳时机 根据数据显示 程序员是金九银十里最热门的行业 也是需求量最大的行业 但是程序员是个门槛低 但金字塔顶峰比较高的行业 意味着你的付出要比别人多才能拔尖 我们都知道
  • MIT_线性代数笔记:复习二

    目录 第二单元主要内容 例题 第二单元主要内容 正交矩阵 Q 用矩阵形式描述正交性质 投影矩阵 P 最小二乘法 在方程无解时求 最优解 Gram Schmidt 正交化 从任意一组基得到标准正交基 策略是从向量 中减去投影到其它向量方向的分
  • The Planets:Venus

    靶场下载 The Planets Venus VulnHub 信息收集 arp scan l Interface eth0 type EN10MB MAC 00 0c 29 43 7c b1 IPv4 192 168 1 60 Starti
  • 电脑快速打开计算器的方法

    大家好 我是爱你三千遍斯塔克 我们平常在运算时 经常要要使用计算器 那么计算器有什么快速打开方法吗 这里有一些参考方法 可供大家进行参考 希望对大家有帮助 希望你喜欢我的内容 记得关注我哦 我会继续为大家带来更好的作 1 win R 打开运
  • 十分钟部署清华 ChatGLM-6B,实测效果超预期(Linux版)

    前段时间 清华公布了中英双语对话模型 ChatGLM 6B 具有60亿的参数 初具问答和对话功能 最 最 最重要的是它能够支持私有化部署 大部分实验室的服务器基本上都能跑起来 因为条件特殊 实验室网络不通 那么如何进行离线部署呢 经过一上午
  • 概述:利用大模型 (LLMs) 解决信息抽取任务

    论文标题 Large Language Models for Generative Information Extraction A Survey 论文链接 https arxiv org pdf 2312 17617 pdf 论文主要探讨
  • SRC漏洞挖掘经验+技巧篇

    一 漏洞挖掘的前期 信息收集 虽然是前期 但是却是我认为最重要的一部分 很多人挖洞的时候说不知道如何入手 其实挖洞就是信息收集 常规owasp top 10 逻辑漏洞 重要的可能就是思路猥琐一点 这些漏洞的测试方法本身不是特别复杂 一般混迹
  • 用户数据中的幸存者偏差

    幸存者偏差 Survivorship bias 是一种常见的逻辑谬误 意思是没有考虑到筛选的过程 忽略了被筛选掉的关键信息 只看到经过筛选后而产生的结果 先讲个故事 二战时 无奈德国空防强大 盟军战机损毁严重 于是军方便找来科学家统计飞机受
  • 2024年金三银四网络安全考试试题

    2023年金三银四网络安全考试试题 1 关于数据使用说法错误的是 A 在知识分享 案例中如涉及客户网络数据 应取敏感化 不得直接使用 B 在公开场合 公共媒体等谈论 传播或发布客户网络中的数据 需获得客户书面授权或取敏感化 公开渠道获得的除
  • 网络安全(黑客)自学启蒙

    一 什么是网络安全 网络安全是一种综合性的概念 涵盖了保护计算机系统 网络基础设施和数据免受未经授权的访问 攻击 损害或盗窃的一系列措施和技术 经常听到的 红队 渗透测试 等就是研究攻击技术 而 蓝队 安全运营 安全运维 则研究防御技术 作
  • 计算机Java项目|基于SSM的微课学习系统

    作者主页 编程指南针 作者简介 Java领域优质创作者 CSDN博客专家 CSDN内容合伙人 掘金特邀作者 阿里云博客专家 51CTO特邀作者 多年架构师设计经验 腾讯课堂常驻讲师 主要内容 Java项目 Python项目 前端项目 人工智
  • 【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
  • 肿瘤的转录调控:Cell子刊揭示原发性肝癌中转录因子活性的全基因组图谱|国自然热点

    转录调控的研究历史比较长 相关研究在近十年来仍一直增长 也是近年来高分文章的焦点之一 在2023年最佳国自然 中标 研究热点 转录调控中标率高达189 作为国自然热点之一的肿瘤微环境的研究在近几年也一直处于上升趋势 转录调控在肿瘤发生 发展
  • 项目文章 | IF=8.4&转录因子Egr-1是脑膜炎型大肠杆菌引起的血脑屏障损伤的关键调节因子

    2024年1月17日华中农业大学动科动医学院陈焕春院士 王湘如教授团队在期刊 Cell Communication and Signaling IF 8 4 发表了题为 Egr 1 is a key regulator of the blo

随机推荐

  • GitHub仓库push报错remote: Support for password authentication was removed on August 13, 2021.

    发现GitHub项目从2021年8月13日开始已经不能使用用户名和密码push代码了 搜索了下 有以下两种方法可以尝试 记录一下 ssh 方式 先在电脑上生成ssh的加密公私钥 使用如下命令 命令中要将 C后面的参数设置为自己的github
  • windows文件保护服务器,Windows 文件保护功能的说明

    WFP 功能的工作方式 WFP 功能使用两种机制为系统文件提供保护 第一种机制在后台运行 在 WFP 收到受保护目录中的文件的目录更改通知后 就会触发这种保护机制 WFP 收到这一通知后 就会确定更改了哪个文件 如果此文件是受保护的文件 W
  • 深度学习十大框架比较

    框架比较 转 1 TensorFlow 对于那些听说过深度学习但还没有太过专门深入的人来说 TensorFlow 是他们最喜欢的深度学习框架 但在这里我要澄清一些事实 在 TensorFlow 的官网上 它被定义为 一个用于机器智能的开源软
  • Deeplabcut教程(一)安装(GPU&CPU版本)(纯新人向)

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 前言 一 Deeplabcut是什么 二 使用步骤 1 环境配置 1 1安装anaconda 1 2换源 1 2安装CUDA和CUdnn GPU 2 Deeplab
  • C++类的继承与派生

    一 基本概念 1 类的继承 是新的类从已有类那里得到已有的特性 或从已有类产生新类的过程就是类的派生 原有的类称为基类或父类 产生的新类称为派生类或子类 2 派生类的声明 class 派生类名 继承方式 基类名1 继承方式 基类名2 继承方
  • 罗技键盘蓝牙搜不到

    罗技K580蓝牙键盘 长按F11 F12在macbookpro 搜索不到 首先 按一下 fn esc 然后长按F11 F12 就可以搜到了
  • 从0开始搭建react项目

    一 项目创建 插件安装 前端项目的创建有三种方式 参考https juejin cn post 6844903953524588552 在html中引入react react dom Babel 使浏览器识别JSX语法 等 使用官方脚手架c
  • Missing variable is:CMAKE_CUDA_DEVICE_LINK_EXECUTABLE

    Linux平台下使用CMAKE3 10 2与CUDA10 2混合编程时出现错误 Missing variable is CMAKE CUDA DEVICE LINK EXECUTABLE 根据https github com colmap
  • 如何遍历一个对象所有的属性并判断属性值

    最近的项目里的一个需求 要我判断一个对象里的所有属性 是否存在值不是 或是null的 public boolean checkGoodMode List
  • 服务器物理内存稳定90%多,服务器物理内存使用率90以上

    服务器物理内存使用率90以上 内容精选 换一换 系统每30秒周期性检测HDFS服务直接内存使用状态 当检测到DataNode实例直接内存使用率超出阈值 最大内存的90 时 产生该告警 直接内存使用率小于阈值时 告警恢复 DataNode可用
  • android自定义圆环控件 滑动选择百分比

    之前做了一个聊天应用 其中需要一个圆环控件 滑动可以选择百分比 看效果图 这个自定义view可以分几步完成 画绿色圆环 画灰色圆环 画三角形 画百分比 其中三角形围绕环形旋转 采用Path类实现 首先画出基本的三角形路径 而后适当计算一下
  • 构造函数及复制构造函数

    一 构造函数 是为了让我们自己去规定 我们定义对象的初始化 这里给出一段程序 作用是按格式输出 输入的时间 include
  • 小型水库雨水情测报及大坝安全监测系统

    一 方案背景 我国水库众多 水库在带给人们便利的同时也存在着巨大的安全隐患 对大坝安全监测的要求越来越高 一旦溃坝失事 会对生命 财产 基础设施 生态环境 经济社会发展等造成灾难性破坏 大坝安全关系着公共安全 经济安全和国家安全 更是水库安
  • R手册--目录

    R手册 说明 本手册所列包基本来自AwesomeR 结合 GitHub 和help package pk name 官方文档整理所得 有助于使用时下最实用的包对R进行深入的学习 致谢 ApacheCN 中文开源组织 致力于官方文档及AI书籍
  • Mac电脑快速安装apt-get

    最近在mac上安装环境和工具 发现以前习惯的apt get者mac上是没有的 所以查了资料 找了一个简单靠谱的方式 1 下载 首先下载前置环境x11 1 双击XQuartz 2 7 8 dmg 安装fink的前置环境X11 2 安装完之后
  • 28、认证

    认证技术 认证 Authentication 又称鉴别或确认 是证实某事是否名副其实或是否真实有效的一个过程 加密 确保信息的机密性 阻止对手的被动攻击 如截取 窃听等 认证技术 完整性 放抵赖 防篡改 确保报文发送者和接收者的真实性以及报
  • UVSLED透明屏,在商业广告中,有哪些应用表现?

    UVSLED透明屏是一种新型的显示屏技术 它采用了UVSLED Ultraviolet Shortwave Light Emitting Diode 作为光源 具有高亮度 高对比度和高色彩饱和度的特点 UVSLED透明屏可以实现透明显示效果
  • vue的监听select的事件

  • webpack发布

    当我们项目开发完成后 需要发布上线 而我们通过webpack dev server的插件打包的文件是存在于内存上的 物理磁盘上并不存在 所以我们需要将内存中的项目复制一份到物理磁盘上 方法 在package json文件中的scripts中
  • 计算机英语学习笔记&深度学习

    学习资料来源于 Robust Face Recognition via Multimodal Deep Face Representation Changxing Ding Student Member IEEE Dacheng Tao F