推荐系统之AUC指标的一些理解

2023-05-16

以下是在一些整理的和自己的关于AUC的理解

1. AUC和GAUC的区别

  • auc反映的是整体样本间的一个排序能力,
  • 在计算广告领域, 实际要衡量的是不同用户对不同广告之间的排序能力,
    因此实际应该更关注的是同一个用户对不同广告间的排序能力。
    GAUC (group auc) 实际是计算每个用户的auc, 然后加权平均, 最后得到group auc, 这样就能 减少不同用户间的排序结果不太好比较这一影响。
    group auc具体公式如下:

实际处理时权重一般可以设为每个用户view或click的次数, 而且会过滤掉单个用户全是正样本或 负样本的情况
G A U C = ∑ ( u , p ) w ( u , p ) ∗ A U C ( u , p ) ∑ ( u , p ) w ( u , p ) \begin{equation} G A U C=\frac{\sum_{(u, p)} w_{(u, p)} * A U C_{(u, p)}}{\sum_{(u, p)} w_{(u, p)}} \end{equation} GAUC=(u,p)w(u,p)(u,p)w(u,p)AUC(u,p)
在计算广告中,要衡量相同用户对不同广告的排序能力,因此GAUC更好.
知乎链接

  • 广告推荐不能混为一谈,对广告而言,模型对同一个广告不同用户的排序能力才是更重要的,因为你服务的是广告主而不是用户,广告主的体验才是决定收入的关键

2. 如何处理全是正样本 or 全是负样本的样本?为什么计算GAUC的时候要过滤掉单个用户全是正样本或负样本的情况呢?

  • 消偏,提高置信度,其实对于全是负样本或者全为正样本的用户来说,那些数据都属于异常数据了,要么就只看不点,或者一直点的垃圾用户.
  • 这两种情况的用户AUC没法计算,必须过滤掉,保证每个用户都有一个AUC值.

3. 为什么order auc 比 click auc更大?

我们在实际业务中,常常会发现点击率模型的auc要低于购买转化率模型的auc。AUC代表模型预估样本之间的排序关系,即正负样本之间预测的gap越大,auc越大

4. click 还是 order的线上线下差距更大?

购买决策比点击决策过程长、成本重,且用户购买决策受很多场外因素影响,比如预算不够、在别的平台找到更便宜的了、知乎上看了评测觉得不好等等原因,这部分信息无法收集到,导致最终样本包含的信息缺少较大,模型的离线AUC与线上业务指标差异变大

5. AUC对均匀正负样本采样不敏感,计算时可以均匀采样

AUC对均匀正负样本采样不敏感, 因此计算时可以均匀采样
正由于AUC对分值本身不敏感, 故常见的正负样本采样, 井不会导致auc的变化。比如在点击率预估中, 处于计算资源的考虑, 有时候会对负样本做负采样, 但由于采样完后并不影响正负样本的顺序分布。
即假设采样是随机的, 采样完成后, 给定一条正样本, 模型预测为score1, 由于采样随机, 则大于score1的负样本和小于score1的负样本 的比例不会发生变化。
但如果采样不是均匀的, 比如采用word2vec的negative sample, 其负样本更偏向于从热门样本中采样, 则会发现auc值发生剧烈变化。

  • AUC的排序特性
    AUC实际上在说一个模型把正样本排在负样本前面的概率,所以,AUC常用在排序 场景的模型评估, 比如搜索和推荐等场景。 这个解释还表明, 如果将所有的样本的得分都加上一个额外的常数, 井不改变这个概率, 因此AUC不变。因此, 在广告等需要绝对的点击率场景下, AUC并不适合 作为评估指标, 而是用logloss等指标。
  • AUC对正负样本比例不敏感
    在模型训练的时候,如果正负比例差异比较大,例如正负比例为 1 : 1000 1:1000 1:1000、训练模型的时候通常要对负样本进行下采样。当一个模型训练完了之后, 用负样本下采样后的测试集计算出来的AUC和末采样的测试集计算的AUC基本一致, 或者说前者是后者的无偏估计。如果采样是随机的,对于给定的正样本, 假定得分为 s + s_+ s+, 那么得分小于 s + s_+ s+的负样 本比例不会因为采样而改变。例如,假设采样前负样本里面得分小于 s + s_+ s+的样本占比为 70% ,如果采样是均匀的, 即$ >s_+$的负样本和 < s + <s_+ <s+的负样本留下的概率是相同的,那么显然采样后这个比例仍然是 70 70% 70.
    这表明,该正样本得分大于选取的负样本的概率不会因为采样而改变, 也就是 y ( t ) d x ( t ) y(t)dx(t) y(t)dx(t) 是不变的, 因此, AUC也不变!
    相比于其他评估指标, 例如准确率、召回率和 F1 值, 负样本下采样相当于只将一部分真实的负例排除掉了, 然而模型并不能准确地识别出这些负例, 所以用下采样后的样本来评估会高估准确率; 因为采样只对负样本采样, 正样本都在, 所以采样对召回率并没什么影响。这两者结合起来, 最终导致高估F1值.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

推荐系统之AUC指标的一些理解 的相关文章

随机推荐

  • pytorch转onnx, onnx 12 中没有hardswish opt

    在onnx opset 12下转以下模型时因不支持hardswish激活函数而报错 GhostNetMobileNetv3SmallEfficientNetLite0PP LCNet 解决方案是找到对应的nn Hardswish层 xff0
  • 3D人脸关键点和重构调研

    一 3D 人脸任务 3D Face Alignment 从2D图像到3D 关键点回归 例如68个关键点 3D Dense Face Alignment 从2D图像到3D稠密关键点回归 xff0c 上万个关键点的人脸模型 xff0c 例如3D
  • BEV(Bird’s-eye-view)三部曲之一:综述

    论文名 xff1a Delving into the Devils of Bird s eye view Perception A Review Evaluation and Recipe Github 论文网址 零 摘要 BEV perc
  • BEV(Bird’s-eye-view)三部曲之二:方法详解

    一 Introdution Why BEV 高度信息在自动驾驶中并不重要 xff0c BEV视角可以表达自动驾驶需要的大部分信息 BEV空间可以大致看作3D空间 BEV representation有利于多模态的融合 可解释性强 xff0c
  • BEV(Bird’s-eye-view)三部曲之三:demo和验证

    1 PYVA Projecting Your View Attentively CVPR 2021 数据集 xff1a KITTIpaper xff0c github xff0c 35 FPS输入 xff1a 单张摄像头前向图输出 xff1
  • 记录自己的日常学习生活

    大家好 xff0c 今天是我第一次写博客 xff0c 刚才看了很多大佬的博文 xff0c 突然就想写一下自己的生活 xff0c 记录自己的学习过程 xff0c 本人是一个地地道道的东本人 xff0c 性格算是活泼开朗吧 xff0c 现就读于
  • 自动驾驶之MultiPath++论文阅读笔记

    预测道路参与者的future behavior 摘要 将输入由dense image based encoding改为a sparse encoding of heterogeneous scene elements 即用polylines
  • 自动驾驶之多任务方法调研

    1 YOLOP github C 43 43 TRT TX2 我们提出了一种高效的多任务网络 xff0c 该网络可以联合处理自动驾驶中的目标检测 车 xff0c 没有红绿灯 可驾驶区域分割和车道检测三个关键任务 速度 xff1a TX2上2
  • 自动驾驶之去光晕调研

    中文版综述github 一 光晕类型 常见去光晕算法的光晕 去光晕算法的光晕之二 汇总 样式包括有 halos 色圈 streaks 条纹 bright lines 亮线 saturated blobs 深污点 color bleeding
  • 自动驾驶之3D点云聚类算法调研

    1 方法 总共分为4类 基于欧式距离的聚类Supervoxel 聚类深度 Depth 聚类Scanline Run 聚类 1 1 基于欧氏距离的聚类 思路 在点云上构造kd tree 然后在某个半径阈值 例如0 5m 则分割为一个实例 相似
  • 自动驾驶之夜间检测调研

    1 ExDark 第一个 公开 特定的提供 natural low light images for object的数据集 7363张 low light images 12 classes Low light image enhancem
  • 自动驾驶之行人轨迹预测数据集

    一 Real Data ETH Univ 43 Hotel 750 pedestrians exhibiting complex interactions UCY Zara01 Zara02 and Uni 780 pedestrians
  • 自动驾驶之单目3D目标检测TensorRT调研

    目前在github上只能找到2个项目 TensorRT CenterNet 3D tkDNN 两者都是使用CenterNet xff0c 但第1个基于TensorRT5 无法与当前最新的TensorRT6和TensorRT7兼容 经测试 x
  • 秋招之字节面试智力题

    1 倒水 只有两个无刻度的水桶 xff0c 一个可以装6L水 xff0c 一个可以装5L水 xff0c 如何在桶里装入3L的水 6L装满倒入5L xff0c 剩1L5L倒出 1L倒入5L6L装满倒入5L剩2L5L倒出 xff0c 2L倒入5
  • 数学专业外语之一: 基本概念与术语

    一 四则运算 加法 plus xff0c 1 43 2 one plus two减法 minus 3 2 three minus two乘法 times or multiplied by xff0c 3x2 three times two
  • 数学专业外语之二: 阅读理解与翻译初步

    一 比 率与比例 number xff1a 数 xff1b number axis xff1a number theory xff1a 数论 xff1b the number of xff1a 的数量quantity xff1a 量 xff
  • 从iphone一代看产品创新

    第一代iPhone2007年6月29日正式发售 xff0c 可能大多数人接触Iphone是从iphone4开始 xff0c 先展示一下iphone一代 xff0c 提醒一下这是2007年的一款手机 xff0c 当时市面所有手机都是键盘机 x
  • 自动驾驶之3D目标检测的SMOKE算法

    SMOKE Single Stage Monocular 3D Object Detection via Keypoint Estimation 论文github知乎 一 数据集 KITTI 1 1 输入 单张图像 xff1a 1242x3
  • 自动驾驶之车道线检测调研与实测

    一 LaneNet 论文代码 xff1a github python tensorflow 1 15 1 1 主要过程 inference xff0c 分上下两个分支 xff0c 如图 Enocder decoder stage 图像空间编
  • 推荐系统之AUC指标的一些理解

    以下是在一些整理的和自己的关于AUC的理解 1 AUC和GAUC的区别 auc反映的是整体样本间的一个排序能力 在计算广告领域 实际要衡量的是不同用户对不同广告之间的排序能力 因此实际应该更关注的是同一个用户对不同广告间的排序能力 GAUC