简易多元线性回归学习

2023-11-09

多元线性回归

多元线性回归是一般线性模型到多个自变量的概括,以及一般线性模型的特例,仅限于一个因变量。

一般线性模型(general linear model, multivariate regression model)是一个统计学上常见的线性模型。
其公式一般写为:
在这里插入图片描述
其中Y是一个包含反应变量的矩阵。X是一个包含独立自变量的设计矩阵。B是一个包含多个估计参数的矩阵。U 是一个包含误差和剩余项的矩阵。通常假设误差在测量之间是不相关的,并遵循多元正态分布。如果误差不遵循多元正态分布,则可以使用广义线性模型来放宽关于YU的假设。
一般线性模型包含许多不同的统计模型:ANOVA,ANCOVA,MANOVA,MANCOVA,普通线性回归,t检验和F检验。一般线性模型是对多于一个因变量的情况的多元线性回归的推广。如果YBU是列向量,则上面的矩阵方程将表示多元线性回归。
使用一般线性模型的假设检验可以通过两种方式进行:多变量或多个独立的单变量检验。在多变量测试中,Y的列一起测试,而在单变量测试中,Y列独立地测试,即作为具有相同设计矩阵的多个单变量测试。

在这里插入图片描述

意义:事物的联系也是多方面的,而影响事物发展的因素是多样的。由多个自变量的最优组合共同来估计因变量,比单一的自变量预测更有效,更符合实际。

一、问题分析

通过对某段时间某地区的已售房价数据进行线性回归分析,探索影响房价高低的主要因素,并对这些影响因素的影响程度进行分析,利用分析得到的数据,对未来房价的趋势和走向进行预测。
本文探究街区(neighborhood),房屋面积(area),卧室(bedrooms),浴室数(bathrooms),房屋风格(style)与 房价(price)的关系以及影响大小。

二、数据预处理(excel)

1.数据清洗

原始数据中,存在有房屋数据存在 没有卧室,没有浴室或房屋面积不合理等疑似错误数据。
在这里插入图片描述

筛选

image-20211102171253439

去掉bedroom为0

image-20211102171533022

bathroom同理

image-20211102171853421

将area值小于1000清洗

image-20211102174830424

2.数据全数值化

neighborhoodstyle为非数值型数据,需要转换成数值型数据进行回归分析。

-A,B,C -1,2,3

-ranch、victorian、lodge -10、20、30

替换A 为 1

image-20211102175737360

image-20211102175949809

B:

image-20211102182826359

C:

image-20211102183337841

ranch:

image-20211102203008226

victorian:

image-20211102203040969

lodge:

image-20211102203113639

三、使用EXcel回归

回归实现

方法

image-20211102203426654

房价(price)作为因变量其他变量作为自变量

image-20211102203611839

回归分析

结果

在这里插入图片描述

Multiple R:相关系数R,用来衡量自变量x与y之间的相关程度的大小。
R Square:决定系数R方,反映因变量的全部变异能通过回归关系被自变量解释的比例。可以通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。

本次数据集回归分析得到的R =0.778,表明x和y之间的关系为高度相关。

本次数据集回归分析得到的R方 = 0.605,说明自变量能解释因变量的60.5%

自变量 含义 Coefficients(系数)
X Variable 1 街区(neighborhood) 9768.8665605825
X Variable 2 房屋面积(area) 345.152705630739
X Variable 3 卧室数(bedrooms) -1733.14723959822
X Variable 4 浴室数(bathrooms) 8112.15494579683
X Variable 5 房屋风格(style) -455.450901280214

回归方程为: y=9768.8x1+345.1x2-1733.1x3+8112.1x4-455.4x5-6497.0

由上可以看出房屋面积x2的P值远小于显著性水平0.05房屋面积(area)房价(price)相关。卧室数(bedrooms)浴室数(bathrooms)的P值远大于显著性水平0.05,说明这卧室数(bedrooms)浴室数(bathrooms)房价(price)相关性较弱。

四、使用代码实现回归

ⅠStatsmodels

1.数据处理

导入数据

import pandas 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

简易多元线性回归学习 的相关文章

随机推荐

  • 面Android的时候要想些什么

    http blog zhuimengfb com 2017 04 23 E9 9D A2Android E7 9A 84 E6 97 B6 E5 80 99 E8 A6 81 E6 83 B3 E4 BA 9B E4 BB 80 E4 B9
  • 再见,深圳。

    春去秋来 我已离开深圳好长一段时间了 回首最近的一年 就像是一场梦 一场让我无法忘记的梦 2011年6月份 我辞去了原先的工作 开始了新的职业旅程 其实在这之前的几年 我一直想从事软件业 可惜不得其门而入 仔细想想 根本的原因是自己把行业的
  • 最简易操作:让vscode终端支持x11图形化界面

    1 配置vscode ssh远程连接服务器 略 在vscode中远程 ssh 右键ssh打开ssh配置文件 添加以下三行 Host HostName User ForwardX11 yes ForwardX11Trusted yes For
  • 【驱动】ina3221 德州仪器3通道电流采样芯片驱动

    说明 基于stm32f103的ina3221电流采样芯片驱动 使用LL库进行开发 已经过验证 INA3221 是一款三通道 高侧电流和总线电压监视器 具有一个兼容I2C 和SMBUS 的接口 INA3221不仅能够监视分流压降和总线电源电压
  • 14、RGB和YCbCr颜色模型

    1 RGB颜色模型 RGB颜色模型就是用红 R 绿 G 蓝 B 三种颜色的混合 从而实现各种颜色的表示 混合得到的颜色如下图所示 可以看出用不同的颜色进行混合 可以得到其他的色彩 三种颜色同时存在时得到的是白色 一种色彩都没的时候得到的是黑
  • python numpy 找出第二大/小的数/索引

    对于numpy我们很容易通过np max或者np argmax找到最大的数 但是如何定位第n大的数呢 百度一下 python找第二大的数方法 居然是将找到最大值复制为最小值后 再找出最大值 显然这个方法也太不智能了 正解如下 import
  • pytorch网络冻结的三种方法区别:detach、requires_grad、with_no_grad

    pytorch网络冻结的三种方法区别 detach requires grad with no grad 文章目录 pytorch网络冻结的三种方法区别 detach requires grad with no grad 1 require
  • Android新闻论坛app(IDEA,SpringBoot,SSM,MySQL)+全套视频教程

    项目功能介绍 本系统包含后台管理和前端app双端系统 后台管理的功能包含 登录 退出 修改管理员信息 基本信息与头像 资源管理 角色管理 资源权限分配 字典管理 用户管理 新闻管理 app端功能 登录 退出 动态 发布动态 点赞 评论 新闻
  • 代码随想录算法训练营19期第46天

    139 单词拆分 视频讲解 动态规划之完全背包 你的背包如何装满 LeetCode 139 单词拆分 哔哩哔哩 bilibili 代码随想录 初步思路 动态规划 总结 单词就是物品 字符串s就是背包 单词能否组成字符串s 就是问物品能不能把
  • 图的点,边和度之间的关系

    有向图 1 所有顶点的度数之和 等于 边数的二倍 2 所有顶点的入度之和 等于 出度之和 3 n个顶点的有向完全图有n n 1 条边 4 n个顶点的强连通图至少有n条边 无向图 1 所有顶点的度数之和 等于 边数的二倍 2 n个顶点的无向完
  • 双目相机标定——从MATLAB到OpenCV

    说明 本文章属于转载内容 若有侵权 请联系删除 原文链接 https zhuanlan zhihu com p 153329285 原文链接 OpenCV和MATLAB均能对双目相机进行标定 但两者都各有优缺点 OpenCV标定的结果更方便
  • ssh服务器:安装,启用查看 (***)

    如何查看ssh服务是否开启 ssh服务器 安装 安装 ssh 命令行安装 sudo apt install ssh synaptic安装 安装之前 安装之后 开饭端口 开饭防火墙 及其他 ssh使用 如何查看ssh服务是否开启 https
  • win10开机“正在准备自动修复”,且无法修复你的电脑

    昨天一顿操作 先是快速启动 后来又觉得快速启动没用又关掉了 第二天过来 发现电脑开不起来了 进到里面怎么自动修复不得行 网上大多数的答案是重装 经过半天努力摸索 终于修好了 原理就不想深究了 准备 一个U盘 并且制作PE系统 修复历程 1
  • 虚拟机可以ping主机却无法ping www.baidu.com

    通常这种情况是DNS出问题了 查看主机IP 命令 ipconfig 看虚拟机网络配置 发现果然是DNS错了 多写了一个I 改过来看看是否可以ping百度 记得要先重启网络哦 成功
  • C# SuperSocket 手把手教你入门 傻瓜教程---2(服务器和客户端双向通信)

    C SuperSocket 手把手教你入门 傻瓜教程系列教程 C SuperSocket 手把手教你入门 傻瓜教程 1 服务器单向接收客户端发送数据 C SuperSocket 手把手教你入门 傻瓜教程 2 服务器和客户端双向通信 C Su
  • sql server服务器物理内存满,解决内存不足问题

    解决内存不足问题 12 21 2017 本文内容 适用于 SQL Server 所有支持的版本 SQL Server 内存中 OLTP 相比 SQL Server 随着需求的不断增加 为 内存中 OLTP 安装和分配的内存量可能会不足 这时
  • 需求分析之矩阵分析法

    如何划分优先级 理解需求 矩阵分析法 理解需求 什么是需求 需求就是用户对目标软件系统的功能 行为 性能 设计约束等方面的期望 什么是需求分析 需求分析是一个发现需求到定义需求的一个过程 矩阵分析法 需求分析李的矩阵分析法主要帮助产品人员用
  • Qt 模型视图编程之增删行列

    背景 Qt 模型视图编程中模型定义了标准接口对数据进行访问 可根据需求继承对应的抽象模型类来实现自定义的数据模型 一个基本的数据模型至少要实现以下虚函数 rowCount 行数 返回要显示多少行 columnCount 列数 返回要显示多少
  • slf4j中的MDC

    一 slf4j中MDC是什么 slf4j除了trace debug info warn error这几个日志接口外 还可以配合MDC将数据写入日志 换句话说MDC也是用来记录日志的 但它的使用方式与使用日志接口不同 在使用日志接口时我们一般
  • 简易多元线性回归学习

    目录 多元线性回归 一 问题分析 二 数据预处理 excel 1 数据清洗 2 数据全数值化 三 使用EXcel回归 回归实现 回归分析 四 使用代码实现回归 Statsmodels 1 数据处理 2 绘制热力图探讨价格与其他之间的联系 3