让机器“看山是山”:脑启发的视觉计算

2023-11-06

编者按:人生之三境界的第一层,“看山是山,看水是水”,本质上展示了人“看见”的过程,以及思绪与理解在这一过程中所起的作用。

“看见”,对于人类而言,似乎是一个很简单自然的事情,其实则不然,从地球上第一个长出眼睛的生物三叶虫,走到今天的人类视觉,经历了五亿四千万年的漫长旅程。人类获得今天的视觉能力,是大自然长期进化的结果,大脑中三分之一的皮层是与视觉相关的。

因此人的视觉任务,本质上是人脑对外界视觉信号作出反应的过程,那么,研究人脑的工作机理,是否能够为计算机视觉提供一些启发,让机器“看山是山”呢?基于此,学术界开展了脑启发视觉计算领域的研究。那么过去一年中,在这一领域都取得了哪些成绩呢?

今天,来自中科院自动化所的张兆翔研究员,将带着大家回顾,脑启发视觉计算在2017年的关键进展。

文末,大讲堂特别提供文中提到所有参考文献的下载链接。

所谓脑启发的视觉计算就是从生物大脑的神经结构、认知机制、行为特性等多个层面寻求启发,引入神经科学、认知科学与心理学的先进成果,提出新的视觉计算模型与方法,克服当前模型与方法局限性,提升视觉计算的性能(准确性、鲁棒性、自适应性、可泛化性、可解释性等)。脑科学与视觉计算可以从如下两个方向加一结合,一是基于脑科学机制进行视觉计算的启发建模,二是现有服务于视觉计算的神经网络模型为脑启发机理提供分析和借鉴。

历史上计算机视觉的发展与脑启发的引入密切相关。很多脑机制的引入都为计算机视觉的突破提供了借鉴和创新源泉。

以Gabor为代表的局部特征描述子是借鉴脊椎动物视觉皮层感受野的特性而设计的,在许多计算机视觉任务上取得了很好的性能。

显著性注意机制从人类视觉感知的显著性注意机制中获得启发,在当前计算机视觉中的检索和检测任务中均取得了很好的性能。

从Neocognitron到HMAX再到当前流行的深度学习方法,都借鉴了大脑中的特征分层和处理机制。当前的主流深度学习方法甚至在识别、分割、检测等任务上取得可以媲美人类的性能。

机器学习专家Tom Mitchell在2017年的全球互联网大会上进一步强调了脑科学与机器智能相互交叉与借鉴的重要性。

下面主要从结构机制、功能机制和学习机制三个层面具体介绍2017年度脑启发视觉计算的相关研究进展。

在结构层面上,Boyn等人提出人工神经突触建模与硬件化方法。该方法利用神经元突触强度分布刻画记忆,通过典型的STDP实现学习,在无监督学习问题上验证了人工神经突触的可行性和先进性。这一研究为后续开展类脑器件研究奠定了坚实基础。

受人脑感知物体方式的启发,Hinton等提出了一种新的神经元结构Capsule。我们都知道现有卷积神经网络方法需要maxpooling操作。该操作将图像中不同基元间的结构关系完全摒弃。即便同一个人的脸,鼻子、眼睛换一个奇怪的顺序以后,maxpooling的结果也一模一样。这与人类视觉感知物体的方式有显著差别。

为克服上述缺陷,Hinton等提出了新的Capsule网络结构。Capsule可以看成一种新的神经元模型。 Capsule将原来神经元结构标量的输入输出转化为向量的输入和输出,并利用这些向量存储特征的不同属性,进而通过动态路由机制实现从底层到顶层的学习。该种网络结构更符合人类感知物体的方式,且具有举一反三的能力。CapsuleNet在一些视觉任务上虽然没有取得比CNN更好的性能,但作为一个尝试去探索有别于当前深度网络的新模型与新方法具有重要的研究意义。

在结构层面上我们课题组也进行了一系列探索。我们都知道现有卷积神经网络往往都只有一种神经元类型,但人脑中却包含多种。受此启发,我们引入多种神经元类型,并通过自主学习与选择,探索兴奋型神经元和抑制型神经元在相关任务上的有效结合。

我们的模型在不同任务上都获得了比单种神经元模型更好的性能。这些结果验证了模型中多种神经元的有效性,是进一步挖掘人工神经网络与生物神经网络联系的重要切入点。

在功能层面上,《Science》报道了一个概率生成模型,用于验证码识别。验证码识别是典型的可以测试机器视觉性能的模型,在现实中往往用于区分机器与人。现有深度神经网络往往只有前馈网络,而没有推理。该工作受系统神经科学的启发,引入递归皮试网络(RCN),以统一的框架实现验证码的检测、分割与识别。

RCN模型有前馈过程,有反馈过程。通过不断迭代,使得前馈和反馈同时进行,最后很好地实现验证码的识别,即使对不同形状以及噪声遮挡下的验证码依然可以获得很好的识别性能。RCN能够模仿人脑中前馈和反馈同时处理的机制,具有很好的可解释性和可泛化性,能取得举一反三的效果。虽然该模型在验证码识别特定任务上取得了比卷积神经网络更好的性能,但也存在显著局限性。该方法往往只能用于一类对基元具有明确定义的问题,而如何将之推广到更一般的感知问题,还有待进一步探索。

现有卷积网络同层神经元之间没有连接,而人脑中神经元之间却相互联系。受此启发,清华大学胡晓林等人提出了一种Recurrent Convolutional Network,实现了同层内神经元的连接。Recurrent Convolutional Network的局限是每个神经元的局部感受野随时间在不断扩大。这不符合生理学事实——人脑当中感受野一定是局部受限的。因此,作者引入一个机制来控制神经元的有效感受野,使其尺寸随内容自动变化。具体做法是在反馈连接上加入一个门控单元,其开闭由前馈信息和反馈信息同时决定,这种模型已经取得当前OCR识别任务最好的效果。

我们课题组最近在功能机制上也开展了一系列探索。我们借鉴人脑中多模态震荡整合机制来实现多模态的有效融合。传统多模态模型分别提取视觉模态和听觉模态特征,通过简单连接实现视听多模态的融合。这种方式虽然简单,但容易造成信息的混叠,往往效果不太理想。我们的研究引入了长短时记忆同步关联与记忆共享表达,通过借鉴人脑当中类似震荡机制的方式,实现视听模态的有效整合。

我们的工作与单模态方法,其他的多模态整合方法相比具有优越性,同时也呼应了神经科学中的多模态震荡整合机制。

在学习机制层面上,自动化所刘成林老师团队提出了原型学习的思想。我们都知道卷积神经网络是通过最后的softmax层实现识别,而softmax层在转换的时候已经固定了类别的个数,因此传统模型处理的识别问题往往都是封闭问题。然而很多视觉计算问题都是开放的,为实现开放环境下的识别,他们通过结构模型的方法,将结构模型识别与统计模型相结合,通过将softmax层替换成原型层,实现了概念发现与噪声拒识,进而实现开放环境下的理解。

人脑往往可以实现连续学习,即人在学习一个任务以后,学习新的任务并不会降低原来任务的性能。而现有的计算机模型却不能实现这样的功能,它们在执行任务1后,再执行任务2时,会直接在任务1的参数基础上进行微调来进行训练。这样使得任务2训练好后,任务1的参数被遗忘。

如何实现连续学习呢?受哺乳动物和人类大脑固化既往获得的技能和记忆的理论启发,Deepmind引入ProgressiveNN, PathNet, EWC来达到连续学习的目标。比如针对新的任务构建网络时,保留和旧任务相关的网络,path和重要参数,实现旧的任务和新任务之间的共生,使网络具有连续学习的能力。

最后总结一下今天的内容。我们认为脑科学研究从分子到行为多个层面都可以进行探索,是视觉计算理论取得突破的重要创新源泉。现有视觉计算理论与方法在鲁棒性、自适应性、可泛化性、可解释性等问题上仍然存在固有缺陷,需要以脑为参照物加以对照,寻求借鉴。向脑学习,开展脑启发的视觉计算具有十分广阔的创新空间与发展前景。


文中参考文献下载链接为:

https://pan.baidu.com/s/1ptnKvOtatbMqPImBNo0Ngw 密码: x6qr

主编:袁基睿  编辑:程一

整理:曲英男、杨茹茵、高科、高黎明


--end--



该文章属于“深度学习大讲堂”原创,如需要转载,请联系 Emily_0167。


作者信息:


作者简介:

张兆翔,博士,中国科学院自动化研究所研究员,博士生导师,中国科学院脑科学与智能技术卓越创新中心年轻骨干,IEEE高级会员,计算机学会YOCSEF委员,计算机视觉专委会委员,模式识别与人工智能专委会委员,人工智能学会模式识别专委会委员。2004年毕业于中国科学技术大学,获得电路与系统专业学士学位;2004年进入中国科学院自动化研究所硕博连读,于2009年获得工学博士学位。2015年任职中国科学院自动化研究所类脑智能研究中心研究员。张兆翔博士一直从事智能视觉监控方面的研究工作,近期进一步聚焦在结合类脑智能和类人学习机制的视觉计算模型,在可用信息建模和基于模型的物体识别问题上开展了系统工作,在面向国家公共安全和智慧城市监管需求的系统平台上取得成功应用,取得显著社会影响和经济效益,近五年来在国际主流学术期刊与会议上发表论文120余篇,SCI收录期刊论文50余篇,担任了ICPR、IJCNN、AVSS、PCM等多个国际会议的程序委员会委员,SCI期刊《Neurocomputing》编委,《IEEE Access》编委,《Pattern Recognition Letters》客座编委、《Frontiers of Computer Science》青年编委和TPAMI、TIP、TCSVT、PR等20余个本领域主流期刊的审稿人。入选“教育部新世纪优秀人才支持计划”、“北京市青年英才计划”和“微软亚洲研究院铸星计划”。



往期精彩回顾

让机器“答问如流”:从视觉到语言|VALSE2018之四

让机器“析毫剖厘”:图像理解与编辑|VALSE2018之三

让机器“察言作画”:从语言到视觉|VALSE2018之二

让机器“观色”:真实世界的表情识别|VALSE2018之一

算法及大V们你们够了:如果CV界也有朋友圈...I 春节特刊

[CVPR2018] 实时旋转鲁棒人脸检测算法

跬步至千里:揭秘谷歌AutoML背后的渐进式搜索技术

”诗画合一”的跨媒体理解与检索

CV领域的最美情话 I 情人节特刊

视觉世界中的"众里寻她"--开放环境下的人物特征表示

欢迎关注我们!


深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!


中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。


中科视拓目前正在招聘: 人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

中科视拓

深度学习大讲堂


点击阅读原文打开中科视拓官方网站


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

让机器“看山是山”:脑启发的视觉计算 的相关文章

  • DBA的一些职责

    1 DBA的一些职责 安装和升级数据库服务器 如Oracle Microsoft SQL server 以及应用程序工具 数据库设计系统存储方案 并制定未来的存储需求计划 一旦开发人员设计了一个应用 就需要DBA来创建数据库存储结构 tab
  • DNN结构:CNN、LSTM/RNN中的Attention结构

    前言 attention作为一种机制 有其认知神经或者生物学原理 注意力的认知神经机制是什么 如何从生物学的角度来定义注意力 大多数attention gating 技巧都可以直接加入现有的网络架构 通过合理设计初始化和训练步骤也可以利用现
  • Linux--写时拷贝、内存管理

    目录 1 内存管理 2 写时拷贝技术 1 内存管理 简单分页 逻辑页 物理页 页表 将虚拟内存空间和物理内存空间划分为大小相同的页面 4k 8k 16k等 虚拟内存 在磁盘上划分一块空间 为什么要有逻辑页面和物理页面 物理页面很长 不能确定
  • ubuntu 设置网络代理

    Ubuntu下通过终端设置网络代理 以便apt get等命令可以正常使用 只需在终端里设置http proxy系统变量即可 plain export http proxy http usr name usr password ipaddre
  • 华为云交付项目服务器配置表,云服务器设备配置列表

    云服务器设备配置列表 内容精选 换一换 当您在华为云上部署了弹性云服务器以及其他云服务 想在关联VPC内通过内网域名实现互访 可以为弹性云服务器配置内网域名解析 内网域名可以随意创建 无需注册 只需要保证VPC内唯一 本操作以为弹性云服务器
  • JavaScript设计模式——工厂模式

    在介绍工厂模式之前 首先我们要理解一下什么是设计模式 什么是设计原则 设计模式 通常在我们解决问题的时候 很多时候不是只有一种方式 我们通常有多种方式来解决 但是肯定会有一种通用且高效的解决方案 这种解决方案在软件开发中我们称它为设计模式
  • 字符串的截取

    第二个 开始截取 String orderArr1 order substring order indexOf order indexOf 1 最后一个 开始截取 String orderArr1 order substring order
  • iOS如何提高tableView的性能

    a 重用cell 我们都知道申请内存是需要时间 特别是在一段时间内频繁的申请内存将会造成很大的开销 而且上tebleView中cell大部分情况下布局都是一样的 这个时候我们可以通过回收重用机制来提高性能 b 避免content的重新布局
  • webservice 安全认证请求头信息

    java import java io IOException import java util Enumeration import javax servlet Filter import javax servlet FilterChai
  • 【深度学习

    文章目录 一 前言 二 Computer vision 2 1 Image classification 2 2 Object detection 2 3 Image segmentation 2 4 Depth estimation 三
  • JAVA使用EasyExcel 进行文件的下载

    Spring Boot中使用EasyExcel 进行文件的下载 1 引入依赖
  • Qt中文乱码解决方法

    Qt中文乱码解决方法 一步到位 一 中文乱码解决方法一 1 QString str QStringLiteral 1你好世界 abc 推荐 2 QString str QObject tr 2你好世界 abc 推荐国际化软件使用 其余不推荐
  • Vue3无法用watch监听到通过ref定义的div内容的改变

    源码如下 div设置了contenteditable属性 但是其中的通过ref绑定的数据监听不到变化
  • 【转载】Elasticsearch——QueryBuilder简单查询--模糊搜索

    elasticsearch中存储的全部文档 1 matchAllQuery matchAllQuery 方法用来匹配全部文档 public class QueryTest public static void main String arg
  • 圆的相切相交相离公式_高中数学:直线与圆

    一 直线 1 直线的倾斜角 在平面直角坐标系中 当直线与x轴重合或平行时 规定倾斜角为0 对于与x轴相交的直线 把x轴绕着交点按逆时针方向转到和直线重合时所转的最小正角叫做直线的倾斜角 倾斜角的范围 0 2 直线的斜率 倾斜角不是90 的直
  • 有关eigen库的一些基本使用方法

    矩阵 向量初始化 include
  • hash冲突的4种解决方案

    简介 解决hash冲突 哈希冲突 有以下四种方法 链地址法 再哈希法 建立公共溢出区 开放定址法 法1 链地址法 对于相同的哈希值 使用链表进行连接 HashMap使用此法 优点 处理冲突简单 无堆积现象 即非同义词决不会发生冲突 因此平均
  • 在windows下制作grub2引导的多启动U盘(可启动wepe,安装centos7,debian10等)

    目标 在windows下把一个8GB的u盘制作为grub2引导的多启动U盘 可启动wepe 安装centos7 debian10等 同时支持bios主板和uefi主板 工具准备 a 一个windows 10电脑 b windows 10电脑
  • 要像黑客一样思考,网络安全人员的晋级之道

    学会像黑客一样思考对于任何网络安全专业人士来说都是必要的 这能够让他们更好地理解黑客入侵网络和系统的策略 战术和技术 以及如何保护客户免受此类攻击 为了成为一名有效的安全专业人员 必须能够既具有攻击性又具有防御性的思维 也就是说 必须理解攻
  • QT自定义槽函数

    QT学习 一 QT自定义槽函数 要点 使用举例 一 QT自定义槽函数 要点 槽函数可以是任意的类成员函数 全局函数 静态函数 lambda表达式 隐式函数 槽函数需要与信号相对应 返回值 函数 信号没有返回值 槽函数可以有返回值 举例 vo

随机推荐

  • iMX6ULL学习(一)

    以下部分资料和硬件参考于韦老师的百问网 文章目录 嵌入式linux启动流程 编译流程 链接库的创建使用 一 制作和使用动态链接库 so share object 二 制作和使用静态链接库 a archive 开发前基础库下载 各压缩格式操作
  • STM32F103 驱动32x64双色点阵单元板 (标准HUB08 接口 F3.75)

    MCU STM32F103C8 点阵屏 32 64 F3 75 单元板 红绿双色 显示 接口 标准HUB08 OE 高电平有效 138译码 1 16 扫 欢迎加QQ群 交流讨论 废话不多说 直接贴代码 整个keil工程下载 https do
  • .NET中的视图和过滤器 (DefaultView和RowFilter)

    NET中的视图和过滤器 DefaultView和RowFilter ADO NET中有一层对象 用来创建任意数据源的抽象模型 其中包括DataSet DataTable DataRow DataView DataRelation等等 所有这
  • Python3的一些基础语法介绍和理解

    作者 心叶时间 2018 04 23 22 18 此处长期维护一些对帮助快速使用python3的一些基础语法 方便日常算法练习使用 控制语法 break 语句可以跳出 for 和 while 的循环体 如果你从 for 或 while 循环
  • 【华为OD机试python】评论转换输出【2023 B卷

    华为OD机试 真题 点这里 华为OD机试 真题考点分类 点这里 题目描述 在一个博客网站上 每篇博客都有评论 每一条评论都是一个非空英文字母字符串 评论具有树状结构 除了根评论外 每个评论都有一个父评论 当评论保存时 使用以下格式 首先是评
  • 手撕双链表

    gt 作者简介 旧言 目前大一 现在学习Java c c Python等 gt 座右铭 松树千年终是朽 槿花一日自为荣 gt 望小伙伴们点赞 收藏 加关注哟 前言 前面我们已经学习了顺序表和单链表 顺序表可以存储动态的数据 但是一旦元素过少
  • CMake 入门级别语法

    CMake 入门级别语法 一 简单实例 开发环境Windows10平台 已经安装了CMake工具 和WinMG32编译器 当前文件夹下文件结构 编译的源文件 cgic c cgictest c 编译的头文件 cgic h 然后编写一个名为C
  • 深入解析sprintf格式化字符串漏洞

    深入解析sprintf格式化字符串漏洞 0x00 前言 从相遇到相识 从相识到相知 不过你真的懂ta吗 这次故事的主角是PHP中的格式化函数sprintf 0x01 sprintf 讲解 首先我们先了解sprintf 函数 sprintf
  • 再见,Navicat!

    DataGrip使用入门 最近看到一款数据库客户端工具 DataGrip 是大名鼎鼎的JetBrains公司出品的 就是那个出品Intellij IDEA的公司 DataGrip是一款数据库管理客户端工具 方便连接到数据库服务器 执行sql
  • 原生Android何去何从

    lt 原生Android何去何从 gt By 我承认永不变 一 Android发展方向 1 跨平台开发 科技日益发展 未来的世界 不可估量 在此发表一下我的意见 虽然很不想承认 但是却不得不承认跨平台开发会成为主流 跨平台应用的优点显而易见
  • 华为OD机试真题 Java 实现【表示数字】【牛客练习题】

    一 题目描述 将一个字符串中所有的整数前后加上符号 其他字符保持不变 连续的数字视为一个整数 数据范围 字符串长度满足1 n 100 二 输入描述 输入一个字符串 三 输出描述 字符中所有出现的数字前后加上符号 其他字符保持不变 四 解题思
  • linux中编译tslib1.4出错:./autogen.sh: 4: autoreconf: not found

    autogen sh 4 autoreconf not found 是在不同版本的 tslib 下执行 autogen sh 产生 它们产生的原因一样 是 因为没有安装automake 工具 ubuntu 10 04 用下面的命令安装好就可
  • Java微信小程序的授权登陆

    前提 获取服务号的公众号平台 中的 开发配置 进去 获取小程序的 AppId 与 AppSevrect 登陆授权作用域分为两种 一 静默登陆 scope参数值为 snsapi base 只能获取到用户openid 好处是静默认证 无需用户手
  • Qt窗口之QMainWindow、QDialog、QWidget

    在 Qt 中 我们将窗口和控件统称为部件 Widget 窗口是指程序的整体界面 可以包含标题栏 菜单栏 工具栏 关闭按钮 最小化按钮 最大化按钮等 控件是指按钮 复选框 文本框 表格 进度条等这些组成程序的基本元素 一个程序可以有多个窗口
  • android面试-事件分发

    回答思路 首先事件是哪几个事件 视图的结构 事件分发的整个流程 事件类型 首先事件分为按下 移动 抬起 还有一个cancel 非人为的结束 视图结构 首先得有个结构模型概念 ViewGroup和View组成了一棵树形结构 最顶层为Activ
  • 中台战略-第九章、数字营销的技术架构与路径

    文章目录 第九章 数字营销的技术架构与路径 9 1基于中台架构 构建立体数字营销云 9 2 数字营销技术架构和设计理念 9 2 1 数字营销云应用介绍 1 全域会员i CDP 2 智能营销i Marketing 3 全渠道销售i Comme
  • 在线沙箱网站 在线恶意文件监测网站 病毒在线监测网站 apk分析在线网站

    沙箱 https www joesandbox com windows 沙箱 VirSCAN https www virscan org language de 只能传20M以内的文件 VirusTotal https www virust
  • 【注释模板】IDEA中JAVA类、方法注释模板教程

    文章目录 TOC 1 引言 2 JAVA创建类时注释模板配置 2 1 打开IDEA 依次点击File gt Setting 2 2 在Settings界面中依次点击Editor gt File and Code Templates 并在Fi
  • 关于示波器产生奇特波形的解释

    转发 https blog csdn net y511374875 article details 80583585
  • 让机器“看山是山”:脑启发的视觉计算

    编者按 人生之三境界的第一层 看山是山 看水是水 本质上展示了人 看见 的过程 以及思绪与理解在这一过程中所起的作用 看见 对于人类而言 似乎是一个很简单自然的事情 其实则不然 从地球上第一个长出眼睛的生物三叶虫 走到今天的人类视觉 经历了