数据分析——最小二乘法建立线性回归方程(最简单的一元线性模型为例)

2023-11-17

概述

别看公式多,其实很简单

最小二乘法其实又叫最小平方法,是一种数据拟合的优化技术。实质上是利用最小误差的平方寻求数据的最佳匹配函数,利用最小二乘法可以便捷的求得未知的数据,起到预测的作用,并且是的这些预测的数据与实际数据之间的误差平方和达到最小。一般应用在曲线拟合的目的上。

原理

本篇文章不考虑其他方面的应用,我们用最简单的实例说明最小二乘法的工作原理与其内在含义。

当我们在研究两个变量(x,y)之间的相互关系时,往往会有一系列的数据对[(x1,y1),(x2,y2)... (xm,ym)],那么将这些数据描绘到x-y直系坐标中若发现这些点都在一条直线附近时,那么初始令这条直线方程的表达式为

                                                                     \widehat{Y}_i=a_0+a_1x_i

其中 a_0,a_1 是任意的实数,现在需要让当 x 取值为 x_i 预测值 Y_i 与回归方程所预测的 \widehat{Y}_i 之间的差值平方最小,但是对于整个回归方程而言,就是所有预测值与实际值之间差值平方之和最小。

如果你要是问我,为什么要用预测值与真实值之间的差值。因为想要需要比较两个Y值,必须有个不变的因子那就是X,在同一个X下比较两种Y才有意义。如果你又问,为什么要平方,那是因为两个Y值之间做差值总会有正负的性质,而这是一个距离问题,是一个标量,所以平方。

故建立一下方程:

                                                            \sum _{i-1}^n(Y_i-\widehat{Y}_i) ^2= Q(a_0,a_1)

Q为关于预测方程中两个参数a_0,a_1的函数而已,此时将预测方程(有的人也叫拟合函数)带入以上公式得到以下方程:

                                                    \sum _{i-1}^n(Y_i-(a_0+a_1x_i)) ^2= Q(a_0,a_1)                                                      

要使的方程Q的取值最小,那么需要对函数Q分别对a_0,a_1求一阶偏导数,并且零偏导之后的值为0。即

                                                  \partial Q/\partial a_0=-2\sum _{i=1}^n(\widehat{Y}_i-a_0-a_1x_i)=0 

                                                \partial Q/\partial a_1=-2\sum _{i=1}^n(\widehat{Y}_i-a_0-a_1x_i)x_1=0

然后,郁闷了一波,为什么要等于0才行啊?哎!因为函数Q是一个进行平方擦操作了的,那么Q大致的曲线就是一个凹形曲线咯,当分别对两个变量求偏导之后等于零时Q肯定处于曲线的最低点,这样也满足了预测值与真实值距离最近的条件了。

接下来就需要对两个参数进行变换求解了,经过一顿移项变换操作之后得到两个参数a_0,a_1关于x和y的表达式。

                                                 a_1=\frac{n\sum_{i=1}^nx_iy_i-\sum _{i=1}^nx_i\sum _{i=1}^ny_i }{n\sum _{i=1}^nx_i^2-(\sum _{i=1}^nx_i)^2}

                                                          a_0=\frac{\sum _{i=1}^ny_i}{n}-a_1\frac{\sum _{i=1}^nx_i}{n}

我靠,敲得我头都晕了眼也花了,公式很难敲,关键是态度要到位。

实例应用

该例子数据引用于SPSS生活统计学。

某市欲对货运总量与工业总产值的数量关系进行研究,以便通过工业总产值预测货运总量。现将1991-2000年的数据,列入表中,根据这些数据建立回归方程。

货运总量   2.8 2.9 3.2 3.2 3.4 3.2 3.3 3.7 3.9 4.2

工业总值  25  27  29   32  34  36  35  39  42   45

首先观测这些数据是否具有某种直观上的特征,

 由上图可以直接看出,x与y之间存在着大致的线性关系,所以权当两者就是线性关系。接下来我们计算我们需要用到的数据计算结果xy,x平方与y平方,详见下图。

 将这些结果带入公式:

                                             a_1=\frac{n\sum_{i=1}^nx_iy_i-\sum _{i=1}^nx_i\sum _{i=1}^ny_i }{n\sum _{i=1}^nx_i^2-(\sum _{i=1}^nx_i)^2}\approx 0.06493

                                                     a_0=\frac{\sum _{i=1}^ny_i}{n}-a_1\frac{\sum _{i=1}^nx_i}{n}\approx 1.1464

那么线性回归的方程即为

                                                 \widehat{Y}_i=a_0+a_1X_i = 1.1644+0.06493X_i

顺便配个图:

这样线性回归的方程就出来了。OK最小二乘法也说了(不是很深,也不是很广,因为自己很菜),例子应用也说了。那么本篇到此结束。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析——最小二乘法建立线性回归方程(最简单的一元线性模型为例) 的相关文章

  • CV计算机视觉核心03-初步认识机器学习(线性回归模型、梯度下降法、线性回归模型解决数字识别问题(没用auto grad)、逻辑回归模型sigmoid、作业:线性回归解决数字识别auto grad)

    CV计算机视觉核心03 初步认识机器学习 线性回归模型 梯度下降法 区分一下回归模型和分类模型 线性回归模型解决数字识别问题 没有使用auto grad 逻辑回归模型 sigmoid函数 如何使用自动梯度计算 auto grad使用的注意事
  • 最小二乘法(Least square method)

    最小二乘法是在线性回归模型最小化均方误差时使用 其实就是对误差函数求导数 然后让其等于0 然后解出使得误差最小 本篇文章讲解最小二乘法 首先声明 此篇的内容是来自 马同学高等数学 微信公众号的内容 目录 1 日用而不知 2 最小二乘法 3
  • 可视化分组散点图并添加分层线性回归模型的拟合曲线(使用R语言)

    可视化分组散点图并添加分层线性回归模型的拟合曲线 使用R语言 在数据分析和可视化中 经常需要绘制散点图以观察两个变量之间的关系 并使用回归模型来拟合数据 本文将介绍如何使用R语言创建分组散点图 并添加分层线性回归模型的拟合曲线 首先 我们需
  • 如何进行最小二乘法,并且附加条件呢?

    请问如何运用最小二乘法去解多项式 然后保证得到的结果都大于0呢
  • 线性回归总结

    向量相似理论 线性回归 比如预测房价中学区属性0 4 居住体验0 2 通勤距离0 2 商业环境0 2等因素 在同一价格区间 只有样本特征与上述属性分布一致时 各方面都加权均衡 才能取得高分 任一单一属性过高 必然导致其他属性降低 通常意义上
  • 波士顿房价预测——线性回归模型

    1 案例背景介绍 数据介绍 该数据是UCI ML房价数据集的副本 以下特征是专家得出的影响房价的结果属性 所以可以直接使用 但很多时候需要我们自己去量化特征找出需要的属性 2 处理流程 基本数据处理 数据很规整 没有需要特别处理的 我们确定
  • tensorflow的归一化与梯度下降

    代码 coding utf 8 By author MZ import numpy as np from sklearn datasets import load boston import tensorflow as tf from sk
  • 矩阵的投影、线性拟合与最小二乘法

    概要 投影矩阵 如果一个b向量进行矩阵运算 Pb 那么向量b就会投影要A的列空间的最近点 目录 一 矩阵的四大基础子空间 二 投影矩阵 三 最小二乘法 一 矩阵的四大基础子空间 一个矩阵有4个子空间 分别是行空间 零空间 列空间和左零空间
  • 最小二乘法的实现与线性回归的应用

    1 简介 简单线性回归中 您有一个因变量y和一个自变量X 该模型可以表示为 y m x b y mx b y
  • R语言-线性回归实例(包括所有源码)

    题目描述 目录 一 身高体重 1 身高和体重的散点图 先肉眼观察来判断使用什么模型 2 画出拟合后的线性函数与散点图背景对比 3 对该模型的分析 4 置信区间分析和假设检验 5 多图像分析 二 不良贷款 三 污染 1 以二氧化硫排放量 吨
  • 深度学习基础:线性回归、感知机、反向传播和梯度下降法

    当代机器学习领域中 线性回归和多层感知机是最常用的基本模型 在深度学习中 这些模型通常是由多个神经网络层次组成 其中前向传播和反向传播是两个非常重要的步骤 本文将介绍线性回归 多层感知机 前向传播和反向传播的基本原理 线性回归 线性回归是一
  • 基于线性回归对神经网络的解释以及梯度下降鞍点与局部最优的产生原理

    首先 机器学习的本质是让计算机找到一个函数来解决问题 这种函数非常复杂以至于人类无法直接手写出来 本文参考李宏毅教授视频ML 2021 Spring 神经网络是解决线性不可分问题 你可以引入多条线来分割当然我们也可以引入激活函数 非线性函数
  • 线性回归与逻辑回归的联系与区别

    1 联系 线性回归 sigmoid函数 逻辑回归 2 区别 1 功能不同 线性回归是做回归的 逻辑回归是做分类的 2 参数求解方法不同 线性回归是用最小二乘法求解参数 逻辑回归是用梯度上升法求解参数 后续补充
  • 最小二乘法与最佳平方逼近(简单版+例子)

    文章内容 本文主要介绍最小二乘法和最佳平方逼近的算法思想 并没有进行严格的数学证明和数学推导 如果仅仅是想要了解该算法的大致思路 那么本文非常适合你 最小二乘法和最佳平方逼近可以说是一回事 最小二乘法主要用于离散型变量 而最佳平方逼近用于的
  • 系统辨识——最小二乘法

    基本原理 数学推导 最小二乘法是通过输入数据与输出数据来拟合已知结构的函数关系 也就是说已知二者的函数关系 通过最小二乘法估计函数的相关参数 假设 x y x y x y存在以下函数关系 但是在实际中 测量数据时存在测量误差或者噪声影响 故
  • pytorch 线性回归拟合sin函数

    目录 1 库文件 2 定义超参数 3 获取数据集 4 加载训练集 测试集 5 搭建线性网络 6 实例化网络和优化器 7 训练网络 8 可视化 9 结果展示 10 完整代码 1 库文件 os 文件是为了消除matplotlib 绘图的错误 T
  • 【MindSpore易点通】深度学习系列-那些介于模糊与清楚之间的一些概念

    之前小编就给大家提过正则化 超链接 其实还有很多定义大家是有点模糊又有点清楚的 今天好好带大家一起捋一遍 1训练集 验证集 测试集 正确地配置训练 验证和测试数据集 会很大程度上帮助大家创建高效的神经网络 即使是深度学习专家也不太可能一开始
  • 线性回归误差项方差的估计

    线性回归误差项方差的估计 摘要 线性回归误差项概念的回顾 残差平方和 residual sum of squares 残差平方和的期望 实验验证 参考文献 摘要 之前在文章线性回归系数的几个性质 中 我们证明了线性回归系数项的几个性质 在这
  • R语言与多元线性回归方程及各种检验

    R语言与多元线性回归方程及各种检验 文章目录 R语言与多元线性回归方程及各种检验 一 模型建立 二 多重共线性 1 产生的背景 2 多重共线性的检验 1 简单相关系数法 2 方差膨胀因子 vif 法 3 矩阵 X T X
  • 【数据结构和算法】小行星碰撞

    其他系列文章导航 Java基础合集 数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一 题目描述 二 题解 2 1 什么情况会用到栈 2 2 方法一 模拟 栈 三 代码 3 1

随机推荐

  • 雷辉:让视频会议conferencing like TV

    伴随视频会议技术不断成熟 其功能已不局限于早期仅仅满足异地会议的需求 打破硬件的桎梏 提供白板 多媒体播放 文档协同等更多功能 如何为视频会议赋予更强大功能 实现更好体验 满足更多办公需求成为一个新的课题 LiveVideoStack邀请到
  • 测试人员必备:常用自动化测试工具

    Appium 官网 http appium io AppUI自动化测试 Appium 是一个移动端自动化测试开源工具 支持iOS 和Android 平台 支持Python Java 等语言 即同一套Java 或Python 脚本可以同时运行
  • 并发编程系列之CountDownLatch对战Cyclicbarrier

    前言 前面我们介绍了并发容器和队列 今天我们来介绍几个非常有用的并发工具类 今天主要讲CountDownLatch和Cyclicbarrier这两个工具类 通过讲解并对比两个类的区别 OK 让我们开始今天的并发之旅吧 什么是CountDow
  • Python爬虫学习-第四篇 Scrapy框架抓取唯品会数据

    上篇博文讲述了scrapy的框架和组件 对于scrapy有了基本的了解 那么我们进入今天的正题 使用Scrapy框架爬取数据 1 创建Scrapy项目 创建Scrapy工程文件的命令 scrapy startproject scrapyte
  • java实现飞机大战(简单版)

    import javafx animation AnimationTimer import javafx application Application import javafx scene Group import javafx sce
  • java压缩字符串并生成二维码

    针对特殊需求需要使用二维码传输数据 为了降低二维码的复杂度和提高数据传输量 需要先对数据进行压缩 然后生成二维码 压缩后的数据是byte 如果再转回字符串会严重影响压缩效果 因此考虑直接使用byte 生成和解析二维码 为了实现使用byte
  • 解决 “/lib64/libc.so.6: version `GLIBC_2.18‘ not found (required by /lib64/libstdc++.so.6)“

    https blog csdn net wiborgite article details 87707938
  • 基于RedHat 8.2源码编译升级Kernel 5.8.1

    1 基于RedHat 8 2源码编译升级Kernel 5 8 1 1 1 背景 只是单纯为了验证工作中遇到的一个bug 才诞生了此文 1 2 先从如下网址下载内核源码包 我这里下载的是 linux 5 8 1 tar gz 大家可根据自己需
  • 无监督深度估计、运动估计的深度学习方法(二)——SSIM损失函数

    在自监督深度估计中 一般输入2张图像 若为视频 则输入邻近的两帧图像 frame1和frame2 模型先估计相机拍摄这2张图像是的姿态变化pose 然后根据pose将frame1变换到frame2的视角下 得到合成图像synthetic f
  • 数据类型:C++中的基本数据类型

    数据类型 C 中的基本数据类型 在C 中 数据类型是用于存储不同种类数据的变量类型 C 提供了多种基本数据类型 包括字符型和数值类型 本篇博客将详细介绍C 中的基本数据类型 并提供相应的示例代码 目录 引言 字符型数据类型 2 1 char
  • Mysql数据备份-定时自动备份dump备份命令

    登录数据库服务器并打开命令行工具 如Windows系统中的cmd exe 或图形化管理工具 如phpMyAdmin Navicat等 根据数据库类型 执行相应的备份命令 例如 MySQL数据库可以使用以下命令导出备份 mysqldump u
  • 数仓分层理论

    数据仓库 在实际工作中 数仓分层 元数据管理 数据质量管理一直是一个持续优化的过程 我们公司业务也是在持续的做数仓的优化工作 在数据治理这方面还是欠缺很多的经验的 下面先简单整理了一下第一个理论部分的相关笔记 数据仓库理论 数据仓库四大特征
  • 锐捷ap设置为路由模式_路由器AP、路由、桥接模式有什么区别【详细介绍】

    现在的路由大多数已经开始支持多种网络连接模式 那么我们就挑一款模式最全的路由来了解各种模式的区别吧 下文将以TP Link迷你无线路由器为例 在TP Link迷你无线路由器上一般有AP 接入点 模式 Router 无线路由 模式 Repea
  • stm32——EXTI

    EXTI 外部中断 是stm32的众多外设之一 属于中断的一种 它最重要的就是通过检测外部引脚口的电平变化 比如说上升沿 下降沿 以及双边沿 来触发中断 让主程序放下当前的事情 去执行发生中断时应该执行的事情 设置好的函数 大概是如上所属
  • SpringBoot集成OAuth2.0的四种授权方式

    背景 OAuth 开放授权 是一个开放标准 允许用户授权第三方应用访问他们存储在另外的服务提供者上的信息 而不需要将用户名和密码提供给第三方应用或分享他们数据的所有内容 OAuth2 0 是OAuth协议的延续版本 但不向后兼容 OAuth
  • Numpy掩码数组masked arrays,这一篇就够了

    Numpy掩码数组masked arrays 这一篇就够了 1 什么是掩码数组 2 示例 2 1 一个例子走进掩码数组 2 2 创建一个数组第二个值是无效的 2 3 创建一个数组所有靠近1 e20的值是无效的 2 4 只获取有效项 2 5
  • 8647服务器装系统,机柜系统资料的.doc

    机柜系统资料的 机房冷通道 机柜系统分为节能系统 机柜 走线系统和配电系统 随着数据中心数据量的飞块速增长 数据中心的能耗量越来越高 主要由运行高功率的IT设备所致 且这些IT设备的密度还在不断提高 IT设备运行所产生大量的热 是数据中心所
  • MySql登录方法

    登录mysql u 用户名 p 用户对应密码 h 主机 socket IP地址 端口号 eg 192 168 10 113 3306 1 方法 mysql u root p密码 mysql u root p mysql hlocalhost
  • shineblink MPU6050六轴传感器测量物体姿态角

    MPU6050六轴传感器测量物体姿态角 一 姿态角 欧拉角 基本概念 二 代码实现功能描述 三 接线图 五 完整代码 六 代码运行结果 七 需要注意的地方 一 姿态角 欧拉角 基本概念 物体在空间中的姿态可以用欧拉角来定义 欧拉角包含pit
  • 数据分析——最小二乘法建立线性回归方程(最简单的一元线性模型为例)

    概述 别看公式多 其实很简单 最小二乘法其实又叫最小平方法 是一种数据拟合的优化技术 实质上是利用最小误差的平方寻求数据的最佳匹配函数 利用最小二乘法可以便捷的求得未知的数据 起到预测的作用 并且是的这些预测的数据与实际数据之间的误差平方和