【马普所2008】机器学习中的核方法(上)

2023-11-14

Hofmann T , Sch?Lkopf B , Smola A J . Kernel methods in machine learning[J]. Annals of Stats, 2008, 36(3).
[1] Integrating structured biological data by kernel
maximum mean discrepancy

本文是对于文献‘Kernel Methods in Machine Learning’的整理和总结。
该文章出版时间为2008年,比较久远,可以作为机器学习基础知识看待。

引入核方法的目的

  1. 概括
    传统的机器学习理论和算法都是基于线性空间的,而实际问题中的数据分析问题通常需要使用非线性方法解决。而引入正定核可以在理论和实际问题中都达到最好的效果。

  2. 基本原理
    正定核对应着特征空间的点乘。只要能够用核方法将everythhing都转化到特征空间,就可以在特征空间里用线性方法进行判别,而不需要对高维特征空间进行特殊计算。

核(尤其是正定核)的性质

介绍性的例子
  1. 定义问题
    假设是二分类问题,有一组训练集有n个样本:(x1,y1),(x2,y2),…,(xn,yn),y取值为{-1,1}。对于一个新的输入样本x,希望能预测对应的y,让(x,y)与训练样本相似。因此需要对xi所在的空间 X ,和yi所在的{-1,1}中元素的相似度进行衡量。后者显而易见,但前者需要定义函数:
    在这里插入图片描述并且该函数满足:
    在这里插入图片描述其中在这里插入图片描述将xi映射到点乘空间 H 中,也称为特征空间。
    也就是说,在 X 空间上的k(xi,xj)等价于在特征空间的点乘。

  2. 结合图例
    在这里插入图片描述
    对于上图的二分类问题,我们采用这样的分类方法,即,当新样本输入x对应的特征空间中的在这里插入图片描述更靠近训练样本中正类的均值在这里插入图片描述时,认为其对应输出y=+1,反之亦然。
    因此用指示函数sgn(.)表示分类器为:
    在这里插入图片描述* 与SVM关系
    分类器(5)与SVM有很强的联系。在特征空间,该分类器为显示为线性,但是在输入空间X中用核的扩展表示(represented by a kernel expansion)。相当于用特征空间里的超平面进行分类。SVM与(5)所示分类器的区别在于 w = c + − c − w=c_+ - c_- w=c+c的法向量上.

  • 该法向量的方向决定了超平面的方向,长度决定了两个类别的生成分布。(?[1])

  • 分析
    c+、c-即为特征空间内两类样本点的均值,那么他们之间的连线的垂线(点虚线)就把整个特征空间分为两个部分,连线上到两个均值点距离相等,左边的点离c+更近,反之亦然。
    对应公式中的b,即为正负两类数据的均值在特征空间的点之间的差距的1/2,可以看做是向量 c-c+ 的一半,作用是将c±的中点移到原点,即将虚线、c±连线平移、旋转到与坐标轴重合的位置,方便使用指示函数。

  1. 考虑特殊情况
    当b=0时,即当c-与c+连线中点与原点重合,用下式估计两个概率分布:
    在这里插入图片描述那么分类器(5)就变成了贝叶斯决策法则(判断p+大则认为y=1,p-大则y=-1).
正定核
引入问题

在上文中已经要求核满足下式,即让其与点积空间的点乘相对应 。那么在这一部分我们就要验证满足该式的这一类核是正定的。
在这里插入图片描述
首先引入一些定义

  1. 格拉姆矩阵 (Gram matrix)

给定核k和输入 x 1 , . . . , x n ∈ x1,..., xn \in x1,...,xnX,有nxn的矩阵K,元素Kij:= k(xi,xj),则称之为k的关于输入$x1,…, xn $的格拉姆矩阵。

2.正定核

实对称矩阵Kij,对于任意c ∈ \in R,有
在这里插入图片描述则该矩阵为正定矩阵。若当且仅当c1=c2=…=cn=0时等号成立,则K为严格正定矩阵.

  1. 正定核

假设X是非空集合,k是XxX→R的一个映射,对于任意n∈N,xi∈X,i∈[n],([n]={1,2,3…,n}),都能够得到一个正定的格拉姆矩阵,则k称为正定核。
若得到的都是严格正定的格拉姆矩阵,则k称为严格正定核。

有时为了简略,我们会将正定核简称为核。为了简化,我们将问题限制在实数域上。然而,通过一些小的变化也可以扩展到复数域。

建立再生核希尔伯特空间

用核方法进行相关性估计和数据分析

再生核Hilbert空间在定义统计模型的应用

专业词汇

positive definite kernel 正定核
dot product space 点积空间

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【马普所2008】机器学习中的核方法(上) 的相关文章

随机推荐

  • SpringCloud集成Resilience4j实现熔断器

    前言 在文章 小谈Springcloud中的几个主流熔断器 我们介绍了SpingCloud架构中的几个主流熔断器 其中SpringCloud官方推荐的Resilience4j作为2020 x以后的新秀 远远没有hystrix有名 相关的文档
  • 服务器service系统,关于Service你所需要知道内容(一)

    根据下面的目录来介绍和理解Service中的知识点 一 Service的两种生命周期 service启动有两种方式 启动服务startService 绑定服务bindService 有不同是生命周期 如下所示 image 1 若一个Serv
  • BGP协议关键知识点

    转载以便复习查看 侵联删 原文链接 https www jannet hk zh Hant post border gateway protocol bgp conf
  • elementUI中表格分页勾选以及整体的全选功能结合。

  • shell脚本中用hive -e执行sql出现「cannot recognize input near ‘<EOF>‘ in select clause」问题

    问题现象 写了一个简单的shell脚本调用hive执行组装的sql 在执行时总是报cannot recognize input near
  • Linux初识之Kali Linux 系统安装详细教程(虚拟机)

    文章出自个人博客https knightyun github io 2018 04 15 kali linux install 转载请申明 目录 一 Kali Linux 介绍 1 Linux 2 Kali 二 虚拟机安装与配置 1 下载
  • 数据开放共享的重要性_为什么今天开放数据很重要

    数据开放共享的重要性 任何变化的主要因素首先是观察 我们收集的数据使我们能够分析复杂的人类模式和行为 没有数据 什么也观察不到 一段时间以来 政府一直在收集大量数据 但是现在 他们正式使公民可以访问这些数据 奥巴马总统最近宣布启动 机会项目
  • AVPlayer视频播放

    AVFoundation中的元数据 Apple环境下的媒体类型主要有四种 QuickTime mov MPEG 4 video mp4和m4v MPEG 4 audio m4a MPEG Layer III audio mp3 使用元数据
  • PostgreSQL和mysql语法区别详解通俗易懂

    目录 0 PostgreSQL的数据类型 0 1 数值数据类型 0 2 字符串数据类型 0 3 日期 时间数据类型 0 4 布尔类型 0 5 货币类型 0 6 几何类型 1 PostgreSQL创建表 1 1 建表之前 创建自增序列 1 2
  • 数据结构(1)—— 程序性能分析

    目录 1 什么是程序性能 2 空间复杂度 2 1 空间复杂度的组成 3 时间复杂度 3 1 时间复杂度的组成 1 什么是程序性能 所谓程序性能 performance of a program 是指运行这个程序所需要的内存和时间的多少 一个
  • Linux常见命令

    ifconfig 查看ip vi filename 打开或新建文件 并将光标置于第一行首 mkdir dir1 创建一个叫做 dir1 的目录 mkdir dir1 dir2 同时创建两个目录 rm f file1 删除一个叫做 file1
  • 两个二维数组合并

  • 重磅发布

    导语 后疫情时代 随着各行业线下业务与线上业务的深度结合转型 流量思维的增量导向逐渐转向降本增效 虚假流量已经成为互联网时代信息化数字资产最大的威胁之一 据极验最新行业数据统计 各个行业都有较高比例的虚假流量存在 机器流量最为泛滥的区块链行
  • Flutter实现类似Android中的PopupWindow控件

    最近在网上看到一段话 产品有三宝 弹窗 浮层加引导 设计有三宝 透明 阴影加圆角 运营有三宝 短信 push加红包 在日常开发中经常会遇到弹窗 浮层之类的效果 这些在Android中实现很简单 可以用PopupWindow完成 但是在flu
  • 静态映射和动态映射

    1 为什么需要映射 在内核启动过程中会开启MMU 建立虚拟映射表 以后内核使用的都是虚拟地址 但是我们查询数据手册得到I O寄存器地址都是物理地址 于是需要将物理地址转换到虚拟地址 这样才能在内核空间去访问I O寄存器 物理地址转换到虚拟地
  • Linux下配置pptp协议之拨号上网

    首先安装pptp sodo apt get install pptp linux y 创建连接 sudo pptpsetup create nodeName server yourServerAddr username xxx passwo
  • zookeeper的安装部署

    1安装zookeeper集群 上传安装包 移动到指定文件夹 mv zookeeper 3 4 6 tar gz opt apps 3 解压 tar zxvf zookeeper 3 4 6 tar gz 4 修改配置文件 1 进入到conf
  • Git介绍及常用命令

    Git介绍及常用命令 在软件开发过程中 团队协作基本上都会使用到git git可以使得团队开发效率变高 因此 我们接下来介绍git的使用方法 国内一般使用gitee 当然 也可以使用github github是国外的 所以加载慢 甚至加载不
  • SQL知识整理三:变量、全局变量、视图、事务、异常

    SQL知识整理三 变量 全局变量 视图 事务 异常 参考文章 1 SQL知识整理三 变量 全局变量 视图 事务 异常 2 https www cnblogs com chengxingliang p 3333277 html 备忘一下
  • 【马普所2008】机器学习中的核方法(上)

    Hofmann T Sch Lkopf B Smola A J Kernel methods in machine learning J Annals of Stats 2008 36 3 1 Integrating structured