task_1

2023-11-10

task_1

赛题数据概况:

数据集(条):训练集:5w;测试集A:5w;测试集B:5w;

特征列(31列):匿名特征(15列)和非匿名特征

全部数据已经脱敏、编码。

预测评估指标

平均绝对误差(Mean Absolute Error,MAE)

评估指标拓展

分类算法:

混淆矩阵(Confuse Matrix)

  • (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )

  • (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )

  • (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )

  • (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

    准确率(Accuracy) = TP+TN / TP+TN+FP+FN;准确率是常用的一个评价指标,但是不适合样本不 均衡的情况。

    精确率(Precision) 又称查准率,正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。

    ​ Precision=TP / TP+FP。

    召回率(Recall) 又称为查全率,正确预测为正样本(TP)占正样本(TP+FN)的百分比。

    ​ Recall=TP / TP+FN

    F1 Score 精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降, 如果需要兼顾二者,就需要精确率、召回率的结合F1 Score。

    ​ F1−Score=2 / (1/Precision) + (1/ RecallF)

    ​ P-R曲线(Precision-Recall Curve) P-R曲线是描述精确率和召回率变化的曲线

    ​ [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9nWsx4RZ-1618326707933)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20210413224341269.png)]

    回归算法评估指标:

    均方误差(MSE)的定义如下,、

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-STUzTcp5-1618326707935)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20210413224812021.png)]

    均方根误差(RMSE)

    ​ 是回归模型的典型指标,用于指示模型在预测中会产生多大的误差,对于较 大的误差, 权重较高。

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pkMXZSC3-1618326707937)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20210413224919926.png)]y是实际值,而y~ 是预测值, RMSE越小越 好。

    平均绝对误差(MAE)

    ​ 用来衡量预测值与真实值之间的平均绝对误差,MAE越小表示模型越好,其定义如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gFWrMM8a-1618326707940)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20210413225100389.png)]

R2分数

​ sklearn在实现线性回归时默认采用了[公式]指标,[公式]越大表示模型越好,其定义如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wd4kazw3-1618326707942)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20210413225219383.png)]

​ 其中[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l0pnSvBv-1618326707945)(https://www.zhihu.com/equation?tex=%5Coverline%7By%7D)]表示真实值的平均值。可能[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lcAEhVqz-1618326707946)(https://www.zhihu.com/equation?tex=R%5E2)]的好处在于其结果进行了归一化,更容易看出模型间的差距。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LKLi9ZdU-1618326707947)(C:\Users\Lenovo\AppData\Roaming\Typora\typora-user-images\image-20210413225303300.png)]

偏差:

​ 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。

方差:

​ 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。

分析赛题

什么是EDA?

分类指标理解

准确率(Accuracy)、Recall、F1-score、AUC

代码如下:

## accuracy
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 1]
print('ACC:',accuracy_score(y_true, y_pred))
"""
结果
ACC: 0.75
"""


## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))
"""
Precision 1.0
Recall 0.5
F1-score: 0.666666666667
"""


## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))
"""
AUC socre: 0.75
"""
回归指标理解
# coding=utf-8
import numpy as np
from sklearn import metrics

# MAPE需要自己实现
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])

# MSE
print('MSE:',metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:',metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:',mape(y_true, y_pred))

"""
MSE: 0.287142857143
RMSE: 0.535857123815
MAE: 0.414285714286
MAPE: 0.14619047619
"""


## R2-score
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:',r2_score(y_true, y_pred))

R2-score: 0.948608137045
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:',r2_score(y_true, y_pred))

## R2-score: 0.948608137045



本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

task_1 的相关文章

  • 为什么需要对数值类型的特征做归一化?

    为什么需要对数值类型的特征做归一化 1 举例子 比如分析一个人的身高和体重对健康的影响 身高的单位是m 范围是1 6 1 8 体重的单位是kg 在50kg 100kg之间 分析出的结果自然会倾向于数值差异较大的体重特征 因此我们需要数值归一
  • 新版Spring Boot(10)- Spring Boot 整合数据持久层(1)

    1 整合JdbcTemplate Service Description TODO Author tzb Date 2021 8 22 10 23 Version 1 0 Service public class UserService A
  • 【Mysql】删除表记录,并限制条数

    删除表数据 好删 那如果要限制条数 如何删除呢 例如 有个表tag list 我要删除aid为6666的前100条数据 sql如下 删除表记录limit限制条数 delete from tag list where aid 6666 lim
  • JUC 六. 线程中断 与 LockSupport

    目录 一 基础理解 如何退出一个线程 volatile 与 AtomicBoolean 中断线程示例 Thread中自带的中断api示例 阻塞状态线程中断时异常解决 二 Thread中自带的中断底层分析 三 总结 一 基础理解 先了解几个问

随机推荐

  • 打印九九口诀表(pta练习题)

    下面是一个完整的下三角九九口诀表 本题要求对任意给定的一位正整数N 输出从1 1到N N的部分口诀表 输入格式 输入在一行中给出一个正整数N 1 N 9 输出格式 输出下三角N N部分口诀表 其中等号右边数字占4位 左对齐 include
  • AIDL原理和相关文件解析

    Binder概述 相信从事Android相关的研发人员 都对Binder有个或多或少的了解 相关技术博客也有一大推 我今天对Binder的学习过程进行一个记录 理论性的叙述会少一点 更多的是基于AS自动生成的AIDL文件进行代码分析 但读者
  • 【Java基础】使用Java 8的Stream API来简化Map集合的操作

    在 Java 8 中引入的 Stream API 是一种非常强大的函数式编程工具 可以帮助开发者更加方便地对集合进行操作和处理 而在 Map 集合中 Stream API 的使用也能够极大地简化代码 并提升程序效率和可读性 在本文中 我们将
  • 网络基础通过子网掩码 计算主机数网络范围

    192 168 11 16 27 主机的个数为32 27 5 2 5 32 32 2 30主机数为30 主机范围是0 31 63 95 必须是32的倍数 16在0 32之间 31是广播地址 网络号是192 168 11 0
  • 白话学习防火墙3 之防火墙工作模式(适用于IPS、IDS、WAF等其他安全设备)

    说白了 透明模式就是当交换机使 路由模式就是当路由使 混杂就是杂交物种 即当作路由使 又当作交换机使 透明模式 透明模式一般用于网络建设完 网络功能基本已经实现的情况下 用户需要加装防火墙以实现安全区域隔离的要求 早期也称之为桥模式 桥这个
  • jvm的内存模型之eden区

    浅谈java内存模型 不同的平台 内存模型是不一样的 但是jvm的内存模型规范是统一的 其实java的多线程并发问题最终都会反映在java的内存模型上 所谓线程安全无 非是要控制多个线程对某个资源的有序访问或修改 总结java的内存模型 要
  • 如何完成卷积神经网络有关的毕业设计

    前言 毕业设计对于每个学生而言都是一种十分痛苦的渡劫仪式 尤其是当你拿到的是完全陌生的毕业设计的时候 内心无疑有各种王尼玛从心中飘过 我在这里聊聊我在完成毕设的过程中得到的一些经验教训 因为我的毕业设计主题是卷积神经网络 所以在这里我的话题
  • 【云计算与数据中心规划】【期末复习题】【2022秋】

    文章目录 一 单选题 共7题 二 多选题 共15题 三 填空题 共7题 四 判断题 共5题 五 简答题 共7题 Reference 题量 41 满分 100 0 一 单选题 共7题 1 以下哪个虚拟机系统可以独立安装在计算机硬件之上 不需要
  • 什么是整洁的代码

    点击蓝色 五分钟学算法 关注我哟 加个 星标 天天中午 12 15 一起学算法 作者 xybaby 来源 https www cnblogs com xybaby p 11335829 html 写出整洁的代码 是每个程序员的追求 clea
  • opengl es3.0学习篇八:纹理

    OpenGL ESMIP 开发十年 就只剩下这套架构体系了 gt gt gt 学习内容来源and参考 opengl es 3 0编程指南 https www jianshu com p 4d8d35288a0f 3D图形渲染最基本的操作之一
  • 05 神经网络语言模型(独热编码+词向量的起源)

    博客配套视频链接 https space bilibili com 383551518 spm id from 333 1007 0 0 b 站直接看 配套 github 链接 https github com nickchen121 Pr
  • 基于opencv的家居智能安防机器视觉系统

    基于opencv的家居智能安防机器视觉系统 关键词 Windows 树莓派 python opencv 1 写在前面的话 大学4年很快过去了 因为疫情原因我们从大四上学期结束之后直接跳到了大学的尾声 毕业设计 毕业答辩 毕业的环境 回顾整个
  • 树莓派基础之外设开发编程

    外设开发篇 一 树莓派外设开发接口 二 树莓派wiringPi库 三 树莓派控制继电器 四 继电器组硬件控制开发 五 超声波模块介绍 六 串口通信协议概述 七 树莓派和语音模块的综合应用 一 树莓派外设开发接口 树莓派的接口 对主控芯片来说
  • 江西省电子专题大赛考点讲解三:CD4017_五阶约翰逊十进制计数器

    芯片引脚图 图CD4017 1 CD4017芯片引脚图 芯片功能概述 表CD4017 2 CD4017芯片真值表 图CD4017 3 CD4017芯片时序图 芯片实例讲解 实例一 输出十进制0 9 图CD4017 4 利用CD4017芯片作
  • Java 基础进阶篇(十八):正则表达式匹配规则和应用

    文章目录 一 正则表达式概述 二 正则表达式的匹配规则 三 正则表达式在方法中的应用 3 1 校验手机号 邮箱和座机电话号码 3 2 字符串的内容替换和分割 四 编程题目 4 1 表示数值的字符串 4 2 非严格递增连续数字序列 一 正则表
  • Java基础练习题03 数组

    1 定义一个数组来存储12个学生的成绩 72 89 65 58 87 91 53 82 71 93 76 68 统计各成绩等级 90分以上为 A 8089分为 B 7079分为 C 60 69分为 D 60分以下为E 学生人数 并将其放入到
  • selenium笔记

    爬取 1 coding utf 8 from selenium import webdriver browser webdriver Firefox browser get http www baidu com 获得浏览器对象后 通过 ge
  • 两个实例看Vue数据代理

    数据代理 概念 通过一个对象代理对另一个对象中属性的操作 读 写 基本原理 通过Object defineproperty方法把data对象中的所有属性添加vm上 为每一个添加到vm上的属性指定getter和 setter方法 利用它去操作
  • Mybatis同时支持多种数据库(oracle 和MySQL)

    这里说下对多种数据库的支持 不是多个数据源 这里要用到mybatis的databaseId 如下
  • task_1

    task 1 赛题数据概况 数据集 条 训练集 5w 测试集A 5w 测试集B 5w 特征列 31列 匿名特征 15列 和非匿名特征 全部数据已经脱敏 编码 预测评估指标 平均绝对误差 Mean Absolute Error MAE 评估指