【深度解析→博文总结】李宏毅机器学习2023作业01Regression(COVID-19 Cases Prediction)

2023-10-26

文章目录

【系列文章】
【简要说明】
【视频分享】
【作业详情】
【调参记录】
【总结讨论】
【资源链接】
【未完待续】
【参考文献】
【写在最后】

【系列文章】

【深度解析→博文总结】李宏毅机器学习2023作业02Classification(Framewise Phoneme Prediction))
【深度解析→博文总结】李宏毅机器学习2023作业03CNN(Image Classification)
【深度解析→博文总结】李宏毅机器学习2023作业04Self-attention(Speaker Identification)

【简要说明】

1、2023年春季学期开始了，台大李宏毅教授的机器学习课程网站也同步上新了，课程网页：https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php。
2、本人是从事基于深度学习相关研究的一名博士，目前博士在读第5年。深感自己在机器学习/深度学习理论知识和实际调参经验方面都不够系统，今年希望能够跟随李宏毅教授的机器学习2023的作业在理论和实践方面都得到提升。
3、2023李宏毅机器学习共计15次作业，本次博客总结记录作业01Regression的调参经验，欢迎入门和深入机器学习知识的朋友们能在评论区多多交流，共同进步。

【视频分享】

为了分享更多此次作业的调参细节，特意录制记录了个视频，便于后续查阅。同时，也希望有朋友能够积极评论，共同进步。

【深度解析→视频分享】李宏毅机器学习2023作业01Regression

【作业详情】

1、【Colab和Pytorch简介】在进行2023机器学习作业之前，李宏毅教授的助教们分别介绍了以上两个基本工具的使用，视频已搬运至知乎和B站，详情见Colab简介【知乎】【B站】和Pytorch简介【知乎】【B站】。
2、【作业简介】李宏毅教授的助教也将作业01Regression进行了详细的介绍，包括：作业内容解读、Kaggle提交介绍、代码调参提示和样例代码详解，视频已搬运至知乎和B站，详情见作业01Regression详细说明【知乎】【B站】。
3、【先修视频】：该作业有两个先修视频，已搬运至知乎【先修视频01】【先修视频02】，是李宏毅老师2021年的机器学习课程视频，课程网页：https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php，对完成本次作业有一定的指导作用，相关的视频（带字幕）、课件已经整理到如下的百度网盘中。【建议】这两个先修视频会推荐再靠前几年的视频进行学习，我个人觉得没有必要太过于花精力去看太老的视频，可以多花时间在做作业上面，在实践中掌握如何有效调参。

【调参记录】

【Simple Baseline：1.96993】

直接跑通助教的样例代码，即可达到Simple Baseline，下图是我的提交记录截图（提交结果不完全相等于1.96993，可能是由于机器差异，即使用同一个随机数种子控制，不同机器上的结果也有差异）。

【Medium Baseline：1.15678】

【Strong Baseline：0.92619】

通过对数据的分析，发现样例代码直接把数据集中的第一列序号也选入到网络的输入特征了，这明显是错误的，先把序号列从输入特征中去掉，直接达到了Strong Baseline，证明了回归问题中特征选择的有效性，下图是我的提交记录截图。

【Boss Baseline：0.81456】

1、试着继续进行特征选择，进一步去掉Belief+Mental的特征，主观认为第3天检测结果是否阳性，主要是看重地区、行为、环境这些特征，结果略有提升。
2、在此基础上调参，加大学习率为1e-4并调整SGD优化器的超参momentum为0.9取得了更好的结果。
3、继续通过特征选择来调整结果，经过大量尝试，发现使用前3天的COVID-like illness 和前2天的Tested Positive Cases 特征效果最佳，并添加归一化使得训练过程更加稳定，得到了接近Boss Baseline的结果。
4、接着通过大量调参工作：学习率、优化器、Batch、EarlyStop、Model修改都没得到更好的验证集分数（在上述几乎所有提交过程中，我都保持了样例代码的随机数种子，发现记录的验证集分数和提交的测试集分数保持了一致的提升），也没有得到更好的测试集分数
5、在几乎快要放弃达到Boss Baseline时，我意识到：自认为把觉得能尝试的个人掌握的调参经验都已经试过了，却没有达到效果，感觉努力的方向需要调整了，因此更换了随机数种子，并采用了多个随机数种子的结果Ensemble的策略，成功突破了Boss Baseline。

【总结讨论】

1、深度学习调参努力的方向比付出的努力更加重要，就作业01Regression而言，特征选择比调超参数更有效得多。
2、就作业01Regression而言，采用Adam优化器的初始学习率可以取得大一些，SGD的初始学习率太大的化，就会使得训练无法进行，即train loss和valid loss很大，这个现象不确定是否为普遍现象？
3、目前kaggle榜单上排名最高的前三分数依次是：0.57488、0.77064、0.77815，我自己最佳的结果分数0.79977（排名100左右）还和大佬们存在较大差距，不知道在哪些方面继续调参能得到更好的结果？
4、Private榜单（55%的测试集数据）今天出了，我的提交获得分数0.85265，没有达到Boss Baseline 0.83436，只达到了 Strong Baseline 0.93051，看来追求提升Public榜单（45%的测试集数据）的调参思路还有很多不足，至少在模型修改部分存在些问题，应该需要泛化性更强的稍微复杂点的模型。

【资源链接】

【2023机器学习】的系列资料包括视频、课件、代码等资源已经系统顺序命名并整理到百度网盘：https://pan.baidu.com/s/1-zfs0wn5rccTRVk34YZWaA，提取码：2023。

【未完待续】

前年和去年我也是想像本次博客一样想系统提升自己的调参水平的，但由于一些原因，比如：一次作业没达到boss baseline、偷懒、忙其他事等，导致自己并没有坚持下去…，本来是有个QQ群号码在这里的，无奈不符合CSDN规范，必须会员或者原力等级大于1000才能使用“推广功能”放QQ群之类的，不过目前群里也有一些一起做作业交流的朋友了，想一起进群交流的私信我吧，希望有同道之人一起坚持前进。

【参考文献】

李宏毅2022机器学习HW1解析

【写在最后】

【原创&整理不易，我的是文章如果有帮到你，麻烦点赞&关注支持下！如果可以，最好能在评论区或者QQ群多多交流，共同进步！】

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

人工智能

深度学习

【深度解析→博文总结】李宏毅机器学习2023作业01Regression(COVID-19 Cases Prediction) 的相关文章

【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

创建第一个Qt Widget项目

创建第一个Qt Widget项目步骤 1 选择文件 Ctrl n 2 新建文件或项目 3 Qt Widget Application 4 输入项目名称FirstApplication 选择存储的位置 5 选择构建套件Desktop Qt Q
numpy一维数组永远为列向量

import numpy as np a np array 1 3 4 5 print a shape a np transpose a print a shape print a a np ravel a print a shape pr
静态分析简介

一程序静态分析简介 Program Static Analysis 程序静态分析简介 Program Static Analysis 是指在不运行代码的方式下通过词法分析语法分析控制流数据流分析等技术对程序代码进行扫描验证代码是
【mysql安装报错（已解决）】ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: YES)

1 说在开头我的 mysql 版本是 8 0 27 的安装的时候感觉每一步都没有错但是就是不行到连接本地数据库时发现一直连不上搞了好久一直报下面的错 ERROR 1045 28000 Access denied for us
一文带你聊聊MYSQL的锁和MVCC

如果你觉得内容对你有帮助的话不如给个赞鼓励一下更新本文内容总结自极客时间 MySQL实战45讲专栏 LBCC 单版本控制锁基于锁的并发控制这种方案比较简单粗暴就是一个事务去读取一条数据的时候就上锁不允许其他事务来操作当
【Python自动化】生成带装饰图形的渐变背景文字封面

Python自动化专栏利用文字生成固定比例且带有装饰图形的封面文章目录一背景介绍二功能介绍效果预览功能清单三过程拆解 1 渐变背景层 2 装饰图形层 3 半透明遮罩层 4 文字层四完整代码参考文档一背景介绍在
echarts地图map下钻到镇街、KMZ文件转GeoJson、合成自定义区域

echarts 地图map下钻到镇街 KMZ文件转GeoJson 合成自定义区域我们可以通过 http datav aliyun com tools atlas 阿里旗下的高德地图提供的api 可以获取到中国各个省份区级县级的json
NAT技术的主要实现方式及其对网络应用程序的使用影响

网络地址转换 NAT 是接入广域网 WLAN 的一种技术能够将私有保留地址转化为合法的IP地址它被广泛应用于各种类型Internet接入方式和各种类型的网络中 NAT的实现方式有三种静态转换动态转换和端口多路复用静态转换设置起
Linux审计与日志安全加固

审计和日志服务配置 auditctl 审计数据配置日志文件最大参数在储存策略 etc audit audit conf 中配置max log file
高德地图精确查找与定位RegeocodeQuery与GeocodeQuery

根据输入的字符串精确查找位置用GeocodeQuery查找坐标然后根据获取到的坐标用RegeocodeQuery查询地址例子中用了两个页面一个是显示地址信息及定位的页面另一个是搜索页面点击搜索结果返回显示页面显示信息并定位
iOS经典面试题总结--内存管理

2019独角兽企业重金招聘Python工程师标准 gt gt gt 我根据自己的情况做了一下总结答案是我总结的如有答的不好的地方希望批评指正以及交流谢谢内存管理 1 什么是ARC ARC是automatic reference c
【darknet】2、yolov4模型训练之模型训练

文章目录 1 进行模型训练数据准备 1 1 划分训练和验证集 1 2 将数据标注格式转换为YOLO格式 2 修改配置文件 2 1 新建cfg vechle names 2 2 新建cfg vechle data 2 3 根据所选模型的不同
java连接数据库的Connection中的prepareStatement与createStatement的区别

这两者的区别主要在于如何构造执行sql语句的对象 1 对于prepareStatement来说其执行返回的是一个prepareStatement对象而这个方法的描述是这样的 prepareStatement String sql 创建一
在mac上安装gradle（超详细，直接按步骤操作即可轻松搞定）

在mac上安装gradle 超详细直接按步骤操作即可轻松搞定第一步就是先download最新版本的gradle 网址如下 http gradle org gradle download 然后将下载下来的zip包放解压到本地任意的路径上
input 标签里 value值从数据库读取出来的值显示一半或者没显示原因

存进数据库的字符如下读取数据出来显示如下毒这家超市被星巴克称为价格警察这段话没显示出来原因这样出来的是value 比海底捞服务更毒这家超市被星巴克称为价格警察 input value值中的双引号被作为value值的结束符
求二元函数最大值matlab,利用matlab, 二元函数求最大值

求二元函数 z 0 2323 x 2 0 2866 2 2 0 5406 a0 2 1 0203 a0 2 x 2 x 2 y 2 0 5 tanh 2 x 2 y 2 0 5 x 2 0 5733 u0 2 的最大值变量x和y都是在0
React -css in js框架style-components

原文 https www jianshu com p 27788be90605 前言前端飞一般的发展中衍生出各式各样的框架框架的目的是减轻开发人员的开发难度提高效率以前网页开发的原则是关注点分离意思是各种技术只负责自己的领域不
【偷偷卷死小伙伴Pytorch20天-day16-损失函数】

最近这几天忙着开学返校的事情终于几番周折回到了学校继续pytorch的学习打卡一般来说监督学习的目标函数由损失函数和正则化项组成 Objective Loss Regularization Pytorch中的损失函数一般在训练模型时
服务器文件类型,linux服务器支持的文件类型

linux服务器支持的文件类型内容精选换一换弹性云服务器卸载磁盘弹性云服务器状态为stopped时支持系统盘也就是 dev sda挂载点和用户盘的卸载没有操作系统限制也不需要在弹性云服务器内部安装vmtools 弹性云服务器
【深度解析→博文总结】李宏毅机器学习2023作业01Regression(COVID-19 Cases Prediction)

文章目录系列文章简要说明视频分享作业详情调参记录 Simple Baseline 1 96993 Medium Baseline 1 15678 Strong Baseline 0 92619 Boss Baseline 0 81

【深度解析→博文总结】李宏毅机器学习2023作业01Regression(COVID-19 Cases Prediction)

文章目录

【系列文章】

【简要说明】

【视频分享】

【作业详情】

【调参记录】

【Simple Baseline：1.96993】

【Medium Baseline：1.15678】

【Strong Baseline：0.92619】

【Boss Baseline：0.81456】

【总结讨论】

【资源链接】

【未完待续】

【参考文献】

【写在最后】

【深度解析→博文总结】李宏毅机器学习2023作业01Regression(COVID-19 Cases Prediction) 的相关文章

随机推荐

热门标签