什么是模式识别,对抗学习是什么?

2023-11-04

模式识别是什么?

作为人工智能的一个重要方向,模式识别的主要任务是模拟人的感知能力,如通过视觉和听觉信息去识别理解环境,又被称为“机器感知”或“智能感知”。

人们在观察事物或现象的时候,常常要寻找它与其他事物或现象的不同之处,并根据一定目的把相似、但又细节不同的事物或现象组成一类。字符识别就是一个典型的例子,如数字“4”可以有各种写法,但都属于同一类别。人脑具有很强的模式识别和推广能力,即使对于某种不同写法的“4”,以前虽未见过,也能把它分到“4”所属的这一类别。人脑的这种对模式(事物、现象等)进行归类和分类的能力,就是模式识别,也就是感知能力。

随着20世纪40年代电子计算机出现,50年代人工智能兴起,模式识别在20世纪60年代初迅速发展成为一门新学科。21世纪以来,模式识别又逐渐与深度学习融合。近年来,深度学习和大数据的出现推动了模式识别的快速发展。

对此,刘成林解释道,“模式识别是一个智能任务,是人工智能的一种形式。机器学习,包括深度学习是模式识别背后的基本方法,通过学习(训练)使机器具备识别模式的能力。当前,用深度学习的方法来实现模式识别,能更好的解决问题。”

深度学习作为机器学习的一种,是对生物神经网络结构和信息处理机制的简单模拟。人工神经网络早在上世纪40年代就有人研究,50年代和80年代都曾产生较大的影响。近年来,随着计算能力的提升,可以训练层数较多的神经网络(称为深度神经网络)来提升数据拟合和识别能力,有的甚至达到了1000多层。深度学习一般就是指利用深度神经网络来进行学习。

复杂条件下,人脸识别的正确率不到50%

得益于深度学习,目前人脸识别和文字识别都是人工智能领域应用比较成功的方向,可以算是模式识别借助深度学习形成的主要研究成果之一。

但刘成林认为,目前人脸识别、文字识别虽然已应用得较为广泛,但还不能算“应用得很好”。人脸识别目前应用得比较成熟的是门禁、通关等领域,原因在于被识别的对象能主动配合,距离摄像头较近,能拍摄到比较清楚的图像。很多厂商在用户配合、光照可控的场景下人脸识别正确率能达到99%以上。但在更加复杂的情况下,如在室外光照不均、距离远、人脸视角多变情况下,用监控摄像头进行人脸识别,识别正确率就会明显降低。

目前在计算机前端加入AI模块,只能起辅助作用,复杂条件下的人脸识别依旧难以达到成熟应用的程度。刘成林表示,室外自然光照条件下,“人脸识别正确率还达不到50%”。

文字识别领域也是如此。文字识别目前主要应用在书籍和报纸等的数字化上。报纸、金融机构、保险机构以及快递行业的的大量单据,都需要电子化后才能方便检索、管理和进行大数据分析。司法界推行智能法务,办案的文书(有印刷体,也有手写体)需要电子化。医院的病例、教育领域的作业题、考试答卷等,也都有很大的电子化需求。

同人脸识别一样,图像清晰度和光照等问题也是文字识别的一大难点。平板扫描仪由于光照均匀,对纸质材料扫描得到的图像清晰度高,文字识别率较高。而拍照图片的识别率则会降低,室外自然场景图片中的文字检测和识别更是当今研究的热点和难点问题。

对抗学习、脑科学并肩,加速AI进程

要克服人脸识别中低分辨率和光照的问题,深度学习也存在局限,而运用对抗学习的方法来处理图像则能提高其清晰度或生成更多样本。

什么是对抗学习?

对抗学习是一种很新的机器学习方法,由加拿大学者Ian Goodfellow首先提出。对抗学习实现的方法,是让两个网络相互竞争对抗,“玩一个游戏”。其中一个是生成器网络,它不断捕捉训练库里真实图片的概率分布,将输入的随机噪声转变成新的样本(也就是假数据)。另一个是判别器网络,它可以同时观察真实和假造的数据,判断这个数据到底是不是真的。通过反复对抗,生成器和判别器的能力都会不断增强,直到达成一个平衡,最后生成器可生成高质量的、以假乱真的图片。

文字识别领域要解决的问题,除了上文提到的拍照图片、以及手写笔迹的识别,小样本条件下的文字识别,如古籍的识别也是一大挑战,因为用于训练的标记样本不足,深度学习难以取得较高的识别率。

小样本泛化性、自适应性、可解释性、鲁棒性是当前以深度学习为主的模式识别技术的主要局限所在,而这些恰恰是人脑的长处。因此,模式识别可以从脑科学和神经科学上寻找新的借鉴,发展新的类人感知和认知机理的模式识别学习理论与方法。

以泛化能力为例,在训练样本较少时,可以设计与人的记忆方式类似的模型进行训练,使机器记住文字的结构和关键特征,如构成文字的笔画、组合和关系。这种模型叫“生成模型”,可以记住每一类模式的关键特征及分布,并能生成数据,如生成满足一类文字基本结构、细节不同的手写字。生成模型也具有很好的解释性,在识别模式的同时能解释这个模式是由哪几部分构成的,几部分之间是什么关系。

模式识别、深度学习、对抗学习、脑科学……越来越多的人工智能研究路径进入了我们的视野。而对于人工智能发展的未来,刘成林也认为,深度学习依然会是人工智能研究的主流,但对抗学习、脑科学、认知科学等的理论方法,都会与其进行融合,共同推进人工智能的发展。

Hebbian Theory-Hebbian学习:Hebbian学习是一种神经科学理论,它认为突触后细胞敏感度的增加源于突出前细胞对突出后细胞反复或者持续的刺激。这一理论解释了突触的可塑性,即学习过程中大脑神经元的适应性,也对人工神经网络的研究起到了重要的作用。它也可称为Hebb规则或Hebb假设

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

什么是模式识别,对抗学习是什么? 的相关文章

随机推荐

  • vs code 用户代码片段失效问题

    例如 vue1 scope javascript typescript prefix v1 body new Vue el data description Log output to console 注意 1 如果没有scope的话 试着
  • 【深度学习】yolov5+deepsort 完成计数和行人行人重识别的追踪

    文章目录 前言 1 知识体系 1 1 前置说明 1 2 Sort的工作流程 1 3 deepsort 2 实践应用 3 干货补充 总结 前言 行人重识别是计算机视觉的基本任务之一 首先要有一个detector 检测器来检测到目标 然后将检测
  • Multitor:一款带有负载均衡功能的多Tor实例创建工具

    关于Multitor Multitor是一款带有负载均衡功能的多Tor实例创建工具 Multitor的主要目的是以最快的速度完成大量Tor进程的初始化 并将大量实例应用到我们日常使用的程序中 例如Web浏览器和聊天工具等等 除此之外 在该工
  • Linux配置SSH无密码登录

    下文以配置2台主机无密码登录为例 本机名为master 另外一台机子名为slave1 1 配置主机名 分别修改2台机子的主机名为master和slave1 具体方法 CentOS修改主机名 hostname 2 配置hosts 在2台主机上
  • 媒体查询响应式布局

    移动端样式开始 移动端共用样式开始 media screen and min width 320px and max width 1169px 移动端共用样式结束 768 1169样式开始 1169根据设计图内容宽度来定 media scr
  • odoo13源码-004: models_1

    coding utf 8 Part of Odoo See LICENSE file for full copyright and licensing details Object Relational Mapping module Hie
  • 基于Qt5的计算器设计

    Qt5的信号与槽 描述 信号槽是 Qt 框架引以为豪的机制之一 所谓信号槽 实际就是观察者模式 发布 订阅模式 当某个事件发生之后 比如 按钮检测到自己被点击了一下 它就会发出一个信号 signal 这种发出是没有目的的 类似广播 如果有对
  • Linux下SVN客户端基本使用教程-使用命令

    Subversion SVN 是一个版本控制系统 用于管理文件和目录的历史记录 在 Linux 中 SVN 客户端提供了一组命令 用于与 SVN 服务器交互 检出 提交 更新和管理版本控制项目 以下是一些 Linux SVN 客户端常用的命
  • 【C语言】不使用strcat(字符串连接函数)将两个字符串连接起来。

    解题思路 定义两个字符数组A B 其中A稍大些 将第一个字符串存入A 再将第二个字符串存入B 然后将B中的字符串紧接在A后即可 采用for循环 具体见程序 include
  • matlab矩阵除法

    matlab中除法有四种 作除 右除 对于标量的运算 与 用法一致 a b 或a b表示a除以b 与 用法一致 a b 或a b表示b除以a 对于矩阵运算 a b 表示矩阵a乘矩阵b的逆矩阵 与 a inv b 一致 a b 表示矩阵a的逆
  • 【无标题】nltk安装wordnet出错[nltk_data]Error loading wordnet:<urlopen error [Errno 111]...>

    一 下载wordnet库报错 二 离线下载nltk data 链接 https pan baidu com s 1B70gBI54aERVNcApUrFDXQ 提取码 snec 下载成功后解压得到nltk data的文件夹 三 把nltk
  • 【CAM】CAM(Class Activation Mapping)——可视化CNN的特征定位

    文章目录 一 CAM Class Activation Mapping 二 CAM技术实现 2 1 网络修改 2 2 微调 2 2 特征提取 三 总结 Reference 完整代码见Github https github com capsu
  • c 中内存拷贝函数(C memcpy)详解

    文章转载自 http blog csdn net sszgg2006 article details 7989404 原型 void memcpy void dest const void src unsigned int count 功能
  • python基础----06-----文件读写追加操作

    一 文件编码概念 思考 计算机只能识别 0和1 那么我们丰富的文本文件是如何被计算机识别 并存储在硬盘中呢 答案 使用编码技术 密码本 将内容翻译成0和1存入 常见编码有UTF8 gbk等等 不同的编码 将内容翻译成不同的二进制 二 文件的
  • (STM32CubeMX)超声波模块测距传感器学习笔记

    超声波模块HC SR04 一 简介 1 概念 2 电路连接 3 工作原理 二 STM32CubeMX配置步骤 1 芯片选择 2 引脚配置 3 时钟配置 4 其他配置 三 keil5代码 1 串口重定向 2 超声波模块编写 一 简介 1 概念
  • LVGL学习笔记6 - 输入设备

    目录 1 移植文件 2 移除多余代码 3 输入设备初始化 4 输入设备读回调函数 4 1 LV INDEV TYPE POINTER 4 2 LV INDEV TYPE KEYPAD 4 3 LV INDEV TYPE ENCODER 4
  • opencv SVM

    目录 What is a SVM 官方文档的源代码 函数补充 colRange 和 rowRange RNG 随机数 rng fill 简化 多分类问题 What is a SVM A Support Vector Machine SVM
  • Pytorch使用GPU

    Pytorch使用GPU pytorch默认是不使用gpu的 即使我们已经安装好了支持的cuda版本和cudnn 所以要使用gpu需要在程序里面设置一下 步骤 import torch use gpu torch cuda is avail
  • promise原理:代码实现

    基础代码 function window const PENDING pending const RESOLVED resolved const REJECTED rejected function Promise excutor this
  • 什么是模式识别,对抗学习是什么?

    模式识别是什么 作为人工智能的一个重要方向 模式识别的主要任务是模拟人的感知能力 如通过视觉和听觉信息去识别理解环境 又被称为 机器感知 或 智能感知 人们在观察事物或现象的时候 常常要寻找它与其他事物或现象的不同之处 并根据一定目的把相似