对比梯度下降和正规方程解性能

2023-11-13

现在用导数的方式模拟线性回归中的梯度下降法

首先再来回顾一下梯度下降法的基础

梯度下降法不是一个机器学习算法, 而是一个搜索算法
梯度下降法用在监督学习中
梯度下降法的过程: 对比模型输出值和样本值的差异不断调整本省权重, 直到最后模型输出值和样本标签差别达到理想误差范围内
梯度下降法的超参是梯度, 梯度过大会导致跳过最优或局部最优解, 梯度过小会过于消耗计算资源

数学推导

现在写一个sklearn中的正规方程的线性回归模型没有实现fit方法

import numpy as np
from .metrics import r2_score

class LinearRegression:

    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None
        self.intercept_ = None
        self._theta = None

    def predict(self, X_predict):
        """给定待预测数据集X_predict，返回表示X_predict的结果向量"""
        assert self.intercept_ is not None and self.coef_ is not None, \
            "must fit before predict!"
        assert X_predict.shape[1] == len(self.coef_), \
            "the feature number of X_predict must be equal to X_train"

        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
        return X_b.dot(self._theta)

    def score(self, X_test, y_test):
        """根据测试数据集 X_test 和 y_test 确定当前模型的准确度"""

        y_predict = self.predict(X_test)
        return r2_score(y_test, y_predict)

    def __repr__(self):
        return "LinearRegression()"

因为这里是用线性回归做测试, 线性回归的正规方程解如下

此公式网上搜的, 推导过程可以看下这位老兄的博客 https://blog.csdn.net/chenlin41204050/article/details/78220280 (未经允许直接引用了哈)

实现正规方程解的fit如下:

    def fit_normal(self, X_train, y_train):
        """根据训练数据集X_train, y_train训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"
        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)
        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]
        return self

要用梯度下降法, 就得找到损失函数, 然后计算梯度
下面是多元线性回归的瞬时函数
在这里插入图片描述
线性回归的lose
接着实现上图面试的梯度下降法的fit_gd如下

    def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
        """根据训练数据集X_train, y_train, 使用梯度下降法训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0], \
            "the size of X_train must be equal to the size of y_train"
        def J(theta, X_b, y):
            try:
                return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
            except:
                return float('inf')
            
        def dJ(theta, X_b, y):
            return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)
            
        def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
            theta = initial_theta
            cur_iter = 0
            while cur_iter < n_iters:
                gradient = dJ(theta, X_b, y)
                last_theta = theta
                theta = theta - eta * gradient
                if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                    break
                cur_iter += 1
            return theta
            
        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.zeros(X_b.shape[1])
        self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)
        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]
        return self

上面的方法都封装在一个LinearRegression.py中

现在开始测试
准备一些随机数据, 维度为5000, 样本数量1000

m = 1000
n = 5000

big_X = np.random.normal(size=(m,n))
true_theta = np.random.uniform(0.0, 100.0, size=n+1)
big_y = big_X.dot(true_theta[1:]) + true_theta[0] + np.random.normal(0, 10.0, size=m)
print(big_X.shape, big_y.shape)

%run LinearRegression.py

输出:

(1000, 5000) (1000,)

使用正规方程解训练线性回归

big_reg1 = LinearRegression()
%time big_reg1.fit_normal(X_train, y_train)
big_reg1.score(X_test, y_test)

输出:

CPU times: user 26.8 s, sys: 921 ms, total: 27.7 s
Wall time: 11.1 s
LinearRegression()

使用梯度下降法训练

big_reg2 = LinearRegression()
%time big_reg2.fit_gd(big_X, big_y)

输出:

CPU times: user 7.44 s, sys: 97.2 ms, total: 7.54 s
Wall time: 4.15 s
LinearRegression()

结论

梯度下降法在无法求出直接最优解的情况下 , 可以搜索到相对较优的解
梯度下降法在数据量较大的情况下, 可以避免类似于正规方程解因为数据规模变大带来的长时间运算(也是相对性的)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

算法笔记

梯度下降法

正规方程解

多元线性回归

性能对比

对比梯度下降和正规方程解性能的相关文章

最速下降法python_Python-梯度下降法（最速下降法）求解多元函数

import matplotlib pyplot as plt from mpl toolkits mplot3d import Axes3D import numpy as np def Fun x y 原函数 return x y 43
Java与C/C++的性能对比

写这个主题是因为若干时间前一时头脑发热 xff0c 写了这个帖子 xff08 http www iteye com topic 857722 xff09 xff0c 现在看来这个帖子很幼稚 xff0c 尤其是二楼 61 61 xff0c 后
二叉树专题

二叉树专题二叉树的存储与基本操作二叉树的遍历先序遍历中序遍历后序遍历层次遍历利用先序遍历和中序遍历构造二叉树二叉树的静态实现一般的树存储新建结点遍历代码来源晴神算法笔记二叉树的存储与基本操作定义 struc
algorithm头文件下的常用函数

max min abs max x y 和min x y 的两个参数可以是浮点数 abs x 的参数必须是整数浮点型的绝对值要使用math头文件下的fabs swap reverse reverse it1 it2 可以将数组指针在 it
字符串处理专题

codeup习题文章目录 codeup习题 Problem A 字符串连接 Problem B 首字母大写 Problem C 字符串的查找删除 Problem D 单词替换 Problem E 字符串去特定字符 Problem F 数组
算法笔记-图搜索

统计图的连通分支数思路建图搜索注意这种建图方式是有向图反例 1 2 3 4 4 1这种不会识别出来因此建图时需要使用有向图在add阶段加入两个方向的路径 add时从1开始的边的标号 0用来判断结束斗则冲突有问题 int to
PAT题库代码（个人版本）~~持续更新，持续改进！

引言之前在网上看到浙江大学的题目系统PAT 想要刷一刷玩目前是乙级题库题目不多持续更新努力话不多说上代码题目以及运行效果这里就不给出了与PAT网站上的相同 1002 写出这个数 include
一些常见数学问题的算法

代码来源晴神算法笔记一最大公约数 int gcd int a int b if b 0 return a else return gcd b a b 二最小公倍数 lcm a b ab d ab有可能溢出因此更恰当的写法是a d
梯度下降法的三种解释（BGD,SGD,MBGD).

机器学习里面梯度下降法可以说是随处可见虽然它不是什么高大上的机器学习算法但是它却是用来解决机器学习算法的良药我们经常会用到梯度下降法来对机器学习算法进行训练在很多介绍梯度下降的书籍里我们看到这样的几个英文单词缩写 BGD SGD
PAT1023 组个最小数给定数字 0-9 各若干个。你可以以任意顺序排列这些数字，但必须全部使用。目标是使得最后得到的数尽可能小例如：给定两个0两个1三个5一个8得到的数字就是10015558

1023 组个最小数 20 分给定数字 0 9 各若干个你可以以任意顺序排列这些数字但必须全部使用目标是使得最后得到的数尽可能小注意 0 不能做首位例如给定两个 0 两个 1 三个 5 一个 8 我们得到的最小的数就是 100
C语言基础知识

文章目录基本数据类型浮点数比较常用math函数循环结构数组结构体字符串基本数据类型整型int 一个整数占用32位 bit 即4字节 Byte 取值范围 231 231 1 即绝对值109以内整数长整型long long
[数值计算-18]：最小二乘的求解法3 - 链式求导与梯度下降法求解loss函数的最优化参数（Python, 超详细、可视化）

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 119978818 目录前置文
浅谈对梯度下降法的理解

浅谈梯度下降法如果读者对方向导数和梯度的定义不太了解请先阅读上篇文章方向导数与梯度前些时间接触了机器学习发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法梯度下降算法过程如下 1 随机初始值 2 迭代直至收敛表
STL在算法设计中的应用——数据的排序

数据的排序 STL在算法设计中的应用有如下几种存放主数据存放临时数据检测数据元素的唯一性数据的排序优先队列作为堆此篇主要内容就是数据的排序对于list容器中元素的排序可以使用其成员函数sort 对于数组或者vector等具有
算法➡数学问题

文章目录进制转换最大公约数与最小公倍数最大公约数素数判断素数素数表的获取质因子分解大数运算大数乘法几何问题由三点的坐标求所构成的三角形的面积判断点是否在三角形内集合问题子集问题数学归纳法回溯法全排列进制转
使用MATLAB进行多元线性回归预测

在回归分析中如果有两个或两个以上的自变量就称为多元回归事实上一种现象常常是与多个因素相联系的由多个自变量的最优组合共同来预测或估计因变量比只用一个自变量进行预测或估计更有效更符合实际因此多元线性回归比一元线性回归的实用意义更
斯坦福cs224n教程--- 学习笔记1

一前言自然语言是人类智慧的结晶自然语言处理是人工智能中最为困难的问题之一而对自然语言处理的研究也是充满魅力和挑战的通过经典的斯坦福cs224n教程让我们一起和自然语言处理共舞也希望大家能够在NLP领域有所成就二先修知识学
剑指offer-解决面试题的思路

大家好我是Nefelibat 在博客上记录算法笔记是因为想push自己每天坚持刷几道算法题同时也希望能把自己总结到的经验分享给大家希望大家阅读愉快目录在写代码之前明确自己做的事情是什么该怎么做画图让抽象问题形象化题目二叉
判断一个大于2的正整数n是否为素数的方法有多种，给出两种算法，说明其中一种算法更好的理由

判断一个大于2的正整数n是否为素数的方法有多种给出两种算法说明其中一种算法更好的理由问题解答 include
算法设计与分析——算法设计工具Standard Template Library即STL（C++模板库）概述

算法设计工具 STL 前言 STL是一个功能强大的基于模板的容器库通过直接使用这些现成的标准化组件可以大大提高算法设计的效率和可靠性一 STL构成 Container 容器 Algorithm 算法 Iterator 迭代器二什么是

随机推荐

sql-labs 41-65关

Less 41 这关还是堆叠注入而且还是数字型闭合可以照搬39关代码但是与39不同的是这关没有报错的显示位查数据 id 1 id 0 union select 1 select group concat username from
计数排序--时间复杂度为线性的排序算法

我们知道基于比较的排序算法的最好的情况的时间复杂度是O nlgn 然而存在一种神奇的排序算法不是基于比较的而是空间换时间使得时间复杂度能够达到线性O n k 这种算法就是本文将要介绍的计数排序一适用情况这个算法在n个输入元素中每
卷积神经网络超详细介绍

文章目录 1 卷积神经网络的概念 2 发展过程 3 如何利用CNN实现图像识别的任务 4 CNN的特征 5 CNN的求解 6 卷积神经网络注意事项 7 CNN发展综合介绍 8 LeNet 5结构分析 9 AlexNet 10 ZFNet 1
layui option 动态添加_layui select 动态加载案例

用到知识点表单监听 form on 局部表单渲染 form render 动态加载的select表单必须有默认的option项第一个option 要不然layui 不会渲染出 select 组件代码如下添加数据返回列表查找所有
Vue中子组件通过v-model动态修改父组件中的值

父子通信中的子传父使用v model实现双向数据绑定注意 vue组件是此组件的根组件是该组件中所有注册的组件的父组件现有需求通过子组件中的输入框来动态绑定父组件中data中的数据代码实现父组件使用porps来向子组件传值子组
为什么浏览器中有些文件点击后是预览，有些是下载

今天给大家分享两个比较有用的浏览器行为与预期不一致的现象这两个问题其实并不是什么难题但在工作中发现不少人被难住了在我的印象中至少有三位同事在群里问这样的问题上周又有同事被此现象困住了所以我觉得这应该是个共性问题在这里分享给大家
物理服务器和云服务器的区别

1 从概念上区分云服务器云主机是在一组集群服务器商虚拟出多个类似独立服务器的部分集群中每个服务器上都有该云服务器的一个镜像形象地讲集群服务器犹如一个大型的公共停车场而云服务器的使用则是卖给了你停车的权利独立服务器顾名思义
如何做数据清洗？

一预处理阶段预处理阶段主要做两件事情一是将数据导入处理工具通常来说建议使用数据库单机跑数搭建MySQL环境即可如果数据量大千万级以上可以使用文本文件存储 python操作的方式而是看数据这里包含两个部分一是看元数据
第四章索引和视图总结

第四章索引和视图 1 索引索引主要分为聚类索引和非聚类索引聚类索引表中数据行的物理存储顺序与索引顺序完全相同每个表只能有一个聚类索引物理的重拍表中的数据以符合索引约束用于经常查找的列非聚类索引不改变表中数据行的物理存储位置
linux系统中解决docker: command not found

新申请了一台阿里云的服务器打算在上边部署一个容器服务竟然发现机器上连docker都没安装如果是mac OS系统可以参考文章 mac系统中解决docker command not found 解决针对这个问题今天特意记录了一下我
网上总结的字节跳动前端面试题

1 jQuery与Vue的区别是什么 Vue vue是一个兴起的前端js库是一个精简的MVVM 从技术角度讲 Vue js 专注于 MVVM 模型的 ViewModel 层它通过双向数据绑定把 View 层和 Model 层连接了起来
Python爬虫常见异常及解决办法

文章目录 1 selenium common exceptions WebDriverException Message unknown error cannot find Chrome binary 方法一配置参数方法二修改源文件
mysql学习-mysql数据类型学习01

数据类型概览数值类型整数类型包括 TINYINT SMALLINT MEDIUMINT INT BIGINT 浮点数类型包括 FLOAT 和 DOUBLE 定点数类型为 DECIMAL tinyint smallint mediumin
【MySQL】MYSQL内核：INNODB存储引擎卷1pdf——百度网盘下载

百度网盘地址 https pan baidu com s 1p4CsmBhYzrIawwUznmByYw 资源来之不易需要获取密码请关注公众号全栈船长并回复数字 0002
前端开发：JS中截取字符串的用法总结，高级Android程序员必会

var a 0123456789 a substring 5 2 4 start 和 stop 有字符串但是最后的输出结果是 234 a substring 5 hh start 和 stop 有字符串但是最后的输出结果是 234 二
计算机在汽车设计方面的应用属于计算机的,计算机技术辅助设计在汽车设计中的应用.pdf...

82 车辆与动力工程 Vehicles and Power Engineering 2017 年 2 月计算机技术辅助设计在汽车设计中的应用温欣汪家宇杨海南沈阳理工大学辽宁沈阳 110159 摘要随着社会经
keil软件调试（Debug）仿真教程（软件调试和硬件调试的区别）及常用调试按键详解

文章目录前言一什么是软件调试 Debug 有什么用二 keil Debug常用按钮总结前言单片机的调试分为两种一种是使用软件模拟调试第二种是硬件调试两种调试方式各有不同软件模拟调试有误差而硬件调试借用仿真器调试是嵌
新斗罗大陆手游服务器维护,《新斗罗大陆》新ss魂师天青龙牛天修复公告

亲爱的魂师大人新SS魂师天青龙牛天首发后小舞收到了大量意见反馈部分魂师大人认为牛天战斗结果异常过高的伤害与其魂师定位不符我们在接收到反馈的第一时间进行了紧急核查随后我们发现该问题是由牛天的技能龙魂觉醒导致当牛天施展该技
AQS原理解析及源码分析

目录 1 介绍下AQS几个重要的组件 2 内部成员变量state 3 同步队列NODE 4 等待队列 condition AbstractQueuedSynchronizer又称为队列同步器后面简称AQS AQS的核心思想是如果被请求的
对比梯度下降和正规方程解性能

现在用导数的方式模拟线性回归中的梯度下降法首先再来回顾一下梯度下降法的基础梯度下降法不是一个机器学习算法而是一个搜索算法梯度下降法用在监督学习中梯度下降法的过程对比模型输出值和样本值的差异不断调整本省权重直到最后模型输出值和样

对比梯度下降和正规方程解性能

现在用导数的方式模拟线性回归中的梯度下降法

结论

对比梯度下降和正规方程解性能 的相关文章

随机推荐

热门标签

对比梯度下降和正规方程解性能的相关文章