逻辑回归相关问题整理

2023-05-16

1. 写逻辑回归的logloss损失函数

对于样本 x x x,输出为 p ( x i ) = 1 1 + e − θ T x p(x_i) = \frac{1}{1+e^{-\theta^T x}} p(xi)=1+eθTx1
对于正样本 P ( Y = 1 ∣ x ) = p ( x ) P(Y=1|x) = p(x) P(Y=1∣x)=p(x), 对于负样本 P ( Y = 0 ∣ x ) = 1 − p ( x ) P(Y=0|x)=1-p(x) P(Y=0∣x)=1p(x)
最大似然 L ( θ ) = Π i = 1 N p ( x i ) y i ( 1 − p ( x i ) 1 − y i ) L(\theta)=\Pi_{i=1}^Np(x_i)^{y_i}(1-p(x_i)^{1-y_i}) L(θ)=Πi=1Np(xi)yi(1p(xi)1yi)
取log. l n L ( θ ) = ∑ i = 1 N y i p ( x i ) + ( 1 − y i ) ( 1 − p ( x i ) ) ln L(\theta)=\sum_{i=1}^N{y_i}p(x_i)+(1-y_i)(1-p(x_i)) lnL(θ)=i=1Nyip(xi)+(1yi)(1p(xi))
损失函数 l n L ( θ ) = − 1 N ∑ i = 1 N y i p ( x i ) + ( 1 − y i ) ( 1 − p ( x i ) ) ln L(\theta)=-\frac{1}{N}\sum_{i=1}^N{y_i}p(x_i)+(1-y_i)(1-p(x_i)) lnL(θ)=N1i=1Nyip(xi)+(1yi)(1p(xi))

2. 逻辑回归损失函数可以用mse吗?(从梯度角度)

一般和平方损失函数(最小二乘法)拿来比较,因为线性回归用的就是平方损失函数,原因就是平方损失函数加上sigmoid的函数将会是一个非凸的函数,不易求解,会得到局部解,用对数似然函数得到高阶连续可导凸函数,可以得到最优解。

3. 逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响

先说结论,如果在损失函数最终收敛的情况下,其实就算有很多特征高度相关也不会影响分类器的效果
但是对特征本身来说的话,假设只有一个特征,在不考虑采样的情况下,你现在将它重复100遍。训练以后完以后,数据还是这么多,但是这个特征本身重复了100遍,实质上将原来的特征分成了100份,每一个特征都是原来特征权重值的百分之一。
如果在随机采样的情况下,其实训练收敛完以后,还是可以认为这100个特征和原来那一个特征扮演的效果一样,只是可能中间很多特征的值正负相消了。

4. 为什么我们还是会在训练的过程当中将高度相关的特征去掉

  • 去掉高度相关的特征会让模型的可解释性更好
  • 可以大大提高训练的速度。如果模型当中有很多特征高度相关的话,就算损失函数本身收敛了,但实际上参数是没有收敛的,这样会拉低训练的速度。其次是特征多了,本身就会增大训练的时间

5. 为什么用对数损失函数?例如MSE(非凸)?

  • 对数似然和交叉熵函数在二分类的情况下形势几乎是一样的,可以说最小化交叉熵的本质就是对数似然函数的最大化. 对数似然函数的本质就是衡量在某个参数下,整体的估计和真实情况一样的概率,越大代表越相近。所以采用对数似然损失是基于LR的理论支撑,即极大似然估计所推导出来的.
  • 对数似然函数是凸函数,易于优化,能收敛到全局最优,而采取其他损失如平方损失,不是一个凸函数,不易优化且容易陷入局部最优解.

6. 为什么LR比线性回归要好?

  • 线性回归:大于0则判定为1,小于0则判定为0
  • 这主要是由于线性回归在整个实数域内敏感度一致. 它根据线性回归方程 w x + b wx+b wx+b计算的结果是否大于 0 0 0来确定分类,计算结果是包含整个实数域的. 而分类范围,需要在 [ 0 , 1 ] [0,1] [0,1]之间. 逻辑回归减少了预测范围, 且逻辑回归在 0 0 0附近敏感, 在远离 0 0 0的位置不敏感,好处是模型更加关注分类边界,增加模型的鲁棒性.

7. LR与SVM比较

  • 共同点:
    • 都是分类算法
    • 如果不考虑核函数,都是线性分类算法,即分类决策面都是线性的
    • 都是有监督的学习算法
    • 都是判别模型
  • 不同点:
    • 损失函数不同,LR采用对数损失函数, svm采用hinge loss
    • 分类原理不同,LR基于概率理论,通过极大似然估计的方法估计出参数的值,SVM基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面,从最大间隔出发,转化为对变量 w w w b b b的凸二次规划问题.
    • 由于分类原理不同,导致了LR是所有样本都有影响,而SVM只是少量样本有影响,即支持向量,在支持向量外添加样本点对分类没影响
    • 正因为LR受数据影响较大,所以在数据不同类型时,要对数据做balancing;同样的,由于SVM依赖数据表达的距离度测度,所以要对数据做normalization标准化.
    • 对于线性不可分的情况,SVM的核函数可以帮助将低维不可分的数据转换到高维,变成线性可份的,而LR很少用到核函数,假设我们在LR里也运用核函数的原理,那么每个样本点都必须参与核计算,这带来的计算复杂度时相当高的,所以LR很少使用核函数
    • SVM的损失函数就自带正则,这就是为什么SVM是结构风险最小化算法,而LR必须另外在损失函数上添加正则化.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

逻辑回归相关问题整理 的相关文章

随机推荐

  • 3D人脸关键点和重构调研

    一 3D 人脸任务 3D Face Alignment 从2D图像到3D 关键点回归 例如68个关键点 3D Dense Face Alignment 从2D图像到3D稠密关键点回归 xff0c 上万个关键点的人脸模型 xff0c 例如3D
  • BEV(Bird’s-eye-view)三部曲之一:综述

    论文名 xff1a Delving into the Devils of Bird s eye view Perception A Review Evaluation and Recipe Github 论文网址 零 摘要 BEV perc
  • BEV(Bird’s-eye-view)三部曲之二:方法详解

    一 Introdution Why BEV 高度信息在自动驾驶中并不重要 xff0c BEV视角可以表达自动驾驶需要的大部分信息 BEV空间可以大致看作3D空间 BEV representation有利于多模态的融合 可解释性强 xff0c
  • BEV(Bird’s-eye-view)三部曲之三:demo和验证

    1 PYVA Projecting Your View Attentively CVPR 2021 数据集 xff1a KITTIpaper xff0c github xff0c 35 FPS输入 xff1a 单张摄像头前向图输出 xff1
  • 记录自己的日常学习生活

    大家好 xff0c 今天是我第一次写博客 xff0c 刚才看了很多大佬的博文 xff0c 突然就想写一下自己的生活 xff0c 记录自己的学习过程 xff0c 本人是一个地地道道的东本人 xff0c 性格算是活泼开朗吧 xff0c 现就读于
  • 自动驾驶之MultiPath++论文阅读笔记

    预测道路参与者的future behavior 摘要 将输入由dense image based encoding改为a sparse encoding of heterogeneous scene elements 即用polylines
  • 自动驾驶之多任务方法调研

    1 YOLOP github C 43 43 TRT TX2 我们提出了一种高效的多任务网络 xff0c 该网络可以联合处理自动驾驶中的目标检测 车 xff0c 没有红绿灯 可驾驶区域分割和车道检测三个关键任务 速度 xff1a TX2上2
  • 自动驾驶之去光晕调研

    中文版综述github 一 光晕类型 常见去光晕算法的光晕 去光晕算法的光晕之二 汇总 样式包括有 halos 色圈 streaks 条纹 bright lines 亮线 saturated blobs 深污点 color bleeding
  • 自动驾驶之3D点云聚类算法调研

    1 方法 总共分为4类 基于欧式距离的聚类Supervoxel 聚类深度 Depth 聚类Scanline Run 聚类 1 1 基于欧氏距离的聚类 思路 在点云上构造kd tree 然后在某个半径阈值 例如0 5m 则分割为一个实例 相似
  • 自动驾驶之夜间检测调研

    1 ExDark 第一个 公开 特定的提供 natural low light images for object的数据集 7363张 low light images 12 classes Low light image enhancem
  • 自动驾驶之行人轨迹预测数据集

    一 Real Data ETH Univ 43 Hotel 750 pedestrians exhibiting complex interactions UCY Zara01 Zara02 and Uni 780 pedestrians
  • 自动驾驶之单目3D目标检测TensorRT调研

    目前在github上只能找到2个项目 TensorRT CenterNet 3D tkDNN 两者都是使用CenterNet xff0c 但第1个基于TensorRT5 无法与当前最新的TensorRT6和TensorRT7兼容 经测试 x
  • 秋招之字节面试智力题

    1 倒水 只有两个无刻度的水桶 xff0c 一个可以装6L水 xff0c 一个可以装5L水 xff0c 如何在桶里装入3L的水 6L装满倒入5L xff0c 剩1L5L倒出 1L倒入5L6L装满倒入5L剩2L5L倒出 xff0c 2L倒入5
  • 数学专业外语之一: 基本概念与术语

    一 四则运算 加法 plus xff0c 1 43 2 one plus two减法 minus 3 2 three minus two乘法 times or multiplied by xff0c 3x2 three times two
  • 数学专业外语之二: 阅读理解与翻译初步

    一 比 率与比例 number xff1a 数 xff1b number axis xff1a number theory xff1a 数论 xff1b the number of xff1a 的数量quantity xff1a 量 xff
  • 从iphone一代看产品创新

    第一代iPhone2007年6月29日正式发售 xff0c 可能大多数人接触Iphone是从iphone4开始 xff0c 先展示一下iphone一代 xff0c 提醒一下这是2007年的一款手机 xff0c 当时市面所有手机都是键盘机 x
  • 自动驾驶之3D目标检测的SMOKE算法

    SMOKE Single Stage Monocular 3D Object Detection via Keypoint Estimation 论文github知乎 一 数据集 KITTI 1 1 输入 单张图像 xff1a 1242x3
  • 自动驾驶之车道线检测调研与实测

    一 LaneNet 论文代码 xff1a github python tensorflow 1 15 1 1 主要过程 inference xff0c 分上下两个分支 xff0c 如图 Enocder decoder stage 图像空间编
  • 推荐系统之AUC指标的一些理解

    以下是在一些整理的和自己的关于AUC的理解 1 AUC和GAUC的区别 auc反映的是整体样本间的一个排序能力 在计算广告领域 实际要衡量的是不同用户对不同广告之间的排序能力 因此实际应该更关注的是同一个用户对不同广告间的排序能力 GAUC
  • 逻辑回归相关问题整理

    1 写逻辑回归的logloss损失函数 对于样本 x x x xff0c 输出为 p x i