Partial Least Squares Regression 偏最小二乘法回归

2023-05-16

介绍

定义

  偏最小二乘回归 ≈ 多元线性回归分析 + 典型相关分析 + 主成分分析

  输入: n×m 的预测矩阵 X n×p的响应矩阵 Y
  输出:X Y 的投影(分数)矩阵T,URn×l
  目标:最大化 corr(T,U)
   X=TPT+E , Y=UQT+F ,其中正交”加载”矩阵 PRm×l,QRp×l ,假设是独立同分布的随机正态变量的错误项 E F

起源

  来源于瑞典统计学家Herman Wold,然后由他的儿子Svante Wold发展。

优点

  用最简的方法求值
1. 能够在自变量存在严重多重相关性的条件下进行回归建模;
2. 允许在样本点个数少于变量个数的条件下进行回归建模;
3. 偏最小二乘回归在最终模型中将包含原有的所有自变量;
4. 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);
5. 在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。

缺点

  TODO

应用领域

  社会科学,化学计量学,生物信息学,sensometrics,神经科学,人类学

相关

  • 特征提取
  • 数据挖掘
  • 机器学习
  • 回归分析
  • 典型相关
  • Deming regression
  • 多线性子空间学习
  • 主成分分析
  • 总平方和

解法

  1. X Y都已经过标准化(包括减均值、除标准差等) 。
  2. X 的第一个主成分为p1 Y 的第一个主成分为q1,两者都经过了单位化(这里的主成分并不是通过PCA得出的主成分)
  3. u1=Xp1,v1=Yq1CCA p q$都有主成分的性质,因此有下面4和5的期望条件。
  4. Var(u1)max,Var(v1)max,即在主成分上的投影,我们期望是方差最大化。
  5. Corr(u1,v1)max 这个跟CCA的思路一致。
  6. 综合4和5,得到优化目标 Cov(u1,v1)=Var(u1)Var(v1)Corr(u1,v1)max

形式化一点:
maxXp1,Yq1
s.t.p1=1,q1=1

求解:
引入拉格朗日乘子
\mathcal{L} = p_1^TX^TYq_1 - \frac{\lambda}{2} (p_1^Tp_1 - 1) - \frac(\theta}{2} (q_1^Tq_1 - 1)
分别对 p1,q1 求偏导,得
\frac{}

实现

Python

  • Scikit-Learn
    sklearn.cross_decomposition.PLSRegression
    http://scikit-learn.org/stable/modules/generated/sklearn.cross_decomposition.PLSRegression.html

    • plsr_example.py
      python
      from sklearn.cross_decomposition import PLSRegression
      X = [[0.0, 0.0, 1.0], [1.0, 0.0, 0.0], [1.0, 1.0, 1.0], [0.4, 1.0, 0.8], [0.1, 0.1, 0.1]]
      Y = [[0, 0, 1], [1, 0, 0], [1, 1, 1], [0, 1, 1], [0, 0, 0]]
      pls2 = PLSRegression(n_components=3)
      pls2.fit(X, Y)
      Y_pred = pls2.predict(X)

      • output
        text
        >>> Y_pred
        array([[ 0.26087869, 0.15302213],
        [ 0.60667302, 0.45634164],
        [ 6.46856199, 6.48931562],
        [ 11.7638863 , 12.00132061]])

    sklearn.cross_decomposition.PLSCanonical
    http://scikit-learn.org/stable/modules/generated/sklearn.cross_decomposition.PLSCanonical.html

    • plsc_example.py
      python
      from sklearn.cross_decomposition import PLSCanonical
      X = [[0., 0., 1.], [1.,0.,0.], [2.,2.,2.], [2.,5.,4.]]
      Y = [[0.1, -0.2], [0.9, 1.1], [6.2, 5.9], [11.9, 12.3]]
      plsca = PLSCanonical(n_components=2)
      plsca.fit(X, Y)
      X_c, Y_c = plsca.transform(X, Y)

      • output
        text
        >>> X_c
        array([[-1.39700475, 0.1179672 ],
        [-1.19678754, -0.17050027],
        [ 0.56032252, 0.0991593 ],
        [ 2.03346977, -0.04662624]])
        >>> Y_c
        array([[-1.22601804, 0.01674181],
        [-0.9602955 , -0.04216316],
        [ 0.32491535, 0.04379 ],
        [ 1.86139819, -0.01836865]])

R

  • pls

应用

  TODO

参考

  1. https://en.wikipedia.org/wiki/Partial_least_squares_regression
  2. http://baike.baidu.com/view/1378714.htm
  3. http://www.cnblogs.com/jerrylead/archive/2011/08/21/2148625.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Partial Least Squares Regression 偏最小二乘法回归 的相关文章

随机推荐

  • Win11怎么把桌面文件路径改到D盘

    Win11怎么把桌面文件路径改到D盘 xff1f 很多朋友可能才了解到桌面其实就是一个文件夹 xff0c 而且默认是在C盘里的 xff0c 当桌面放很多文件的时候 xff0c 就会占用很多C盘空间 xff0c 现在大家想要把桌面文件路径改到
  • 简单医疗系统设计(一)登录界面的制作

    这周由于忙于一些琐事 xff0c python进度比上周慢了一点 xff0c 而且廖老师后面的一些课程也没留下作业 xff0c 所以今天只能拿出以前自己写的一些干货了 先放出完成后的图 xff1a 下面是实现界面设计的代码 xff1a 这里
  • 上传文件超过限制,造成长时间无响应的解决方案

    在上传大文件 xff0c 造成长时间没有响应的情况的解决方案 xff1a 上传大文件时 xff0c 因为http协议的响应问题 xff0c 造成长时间不能向客户端发送响应请求头 解决方案 xff1a 1 向服务器发送上传大文件的reques
  • checkbox的jsTree的一个调用

    lt DOCTYPE HTML PUBLIC 34 W3C DTD HTML 4 01 Transitional EN 34 gt lt html gt lt head gt lt meta http equiv 61 34 Content
  • 灵活使用递归算法,生成Excel文件中的复合表头

    最近 xff0c 在开发中 xff0c 需要导出数据到excel文件 xff0c 文件的表头的格式是不一致的 有复合表头 xff0c 也有单表头 xff0c 那么如何灵活地生成excel文件中的复合表头 首先有一个JSON字符串格式的字段描
  • 在 ibm http server 和 websphere 之间配置 ssl

    在WebSphere的环境中 xff0c 配置SSL xff0c 有一些细节需要注意 xff1a 1 最好是先安装 ibm http server7 32bit xff0c websphere7 再安装插件 2 http server 需要
  • Ext4使用总结(二)简单的hbox布局

    布局的合理利用 xff1a 如图 xff1a xtype 39 container 39 margins 39 5 0 0 0 39 layout align 39 stretch 39 type 39 hbox 39
  • 软件开发者的精力管理(一)

    精力管理对于软件开发者来讲是非常重要的 不希望自己被长周期的项目拖垮 xff0c 不希望被连续的加班所累 我个人认为泛义的时间管理是涉及到多个方面的 而心理学 精力管理则是非常重要的 作为一名从事了多年软件开发的从业者 xff0c 我的一个
  • 如何高效能地学习和使用"工具"?

    在软件开发中 xff0c 应该注意工具的合理使用 xff0c 使得自己变得高效起来 1 工具也是产品 xff0c 有许多的工具是产品化的 既然是产品 xff0c 就很多的服务 xff0c 例如帮助文档 xff0c 论坛 xff0c 咨询人员
  • Ext4使用总结(十二) 采用 CellEditing 方式的Grid,如何取得修改的单元格数据值

    使用cellediting方式编辑数据的grid在保存数据时 xff0c 需要进行数据的处理 xff0c 所以数据处理的方式需要特别注意 cellEditing 插件的事件 listeners edit function editor e
  • 「Ubuntu」Ubuntu中的python终端配置(修改终端默认python配置,软连接,不同版本python环境配置)

    前言 通过这篇博客 xff08 Ubuntu安装Python xff09 安装完Python后 xff0c 想要在终端直接启动想启动的python版本 此时直接在终端输入python2或者python3 xff0c 发现系统已经配置好了py
  • [解题报告] CSDN竞赛第15期

    CSDN编程竞赛报名地址 xff1a https edu csdn net contest detail 29 1 求并集 题目 由小到大输出两个单向有序链表的并集 如链表 A 1 gt 2 gt 5 gt 7 链表 B 3 gt 5 gt
  • JSP开发技术四——————EL表达式

    EL xff08 Expression Language xff09 表达式 xff0c 即正则表达式 用来操作字符串 用一些特定的字符来表示一些代码操作 xff0c 这样简化代码书写 学习正则表达式 xff0c 就是学习一些特殊符号的实用
  • [解题报告] CSDN竞赛第17期

    CSDN编程竞赛报名地址 xff1a https edu csdn net contest detail 31 1 判断胜负 题目 已知两个字符串A B 连续进行读入n次 每次读入的字符串都为A B 输出读入次数最多的字符串 解题报告 模拟
  • [解题报告] CSDN竞赛第18期

    CSDN编程竞赛报名地址 xff1a https edu csdn net contest detail 32 1 单链表排序 题目 单链表的节点定义如下 xff08 C 43 43 xff09 xff1a class Node publi
  • [解题报告] CSDN竞赛第22期

    CSDN编程竞赛报名地址 xff1a https edu csdn net contest detail 36 1 c 43 43 难题 大数加法 题目 大数一直是一个c语言的一个难题 现在我们需要你手动模拟出大数加法过程 请你给出两个大整
  • [解题报告] CSDN竞赛第23期

    CSDN编程竞赛报名地址 xff1a https edu csdn net contest detail 37 1 排查网络故障 题目 A地跟B地的网络中间有n个节点 xff08 不包括A地和B地 xff09 xff0c 相邻的两个节点是通
  • CSDN竞赛第24期

    CSDN编程竞赛报名地址 xff1a https edu csdn net contest detail 38 这次写完第一道题时遇到一个奇怪的情况 xff1a 一直在 运行中 xff0c 然后发现每道题输入做任意代码都出现一直运行中 跟小
  • [Python开发] 使用python读取图片的EXIF

    使用python读取图片的EXIF 方法 使用PIL Image读取图片的EXIF 使用https pypi python org pypi ExifRead 读取图片的EXIF xff0c 得到EXIF标签 xff08 dict类型 xf
  • Partial Least Squares Regression 偏最小二乘法回归

    介绍 定义 偏最小二乘回归 多元线性回归分析 43 典型相关分析 43 主成分分析 输入 xff1a n m 的预测矩阵 X n p 的响应矩阵 Y 输出 X 和 Y 的投影 分数 矩阵 T U R n l 目标 xff1a 最大化 cor