【深度解析→博文总结】李宏毅机器学习2023作业02Classification(Framewise Phoneme Prediction)

2023-11-14

文章目录

【系列文章】
【简要说明】
【视频分享】
【作业详情】
【调参记录】
【资源链接】
【写在最后】

【系列文章】

【深度解析→博文总结】李宏毅机器学习2023作业01Regression(COVID-19 Cases Prediction)
【深度解析→博文总结】李宏毅机器学习2023作业03CNN(Image Classification)
【深度解析→博文总结】李宏毅机器学习2023作业04Self-attention(Speaker Identification)
【深度解析→博文总结】李宏毅机器学习2023作业05Transformer(Machine Translation)

【简要说明】

1、本次博客总结记录作业02Classification的调参经验，如下图所示，最终本人的模型方案在Public Test和Private Test都达到了Boss Baseline【Public排名第6，分数0.85201>0.83017；Private排名第4，分数0.85240>0.83058】，欢迎入门和深入机器学习知识的朋友们能在评论区多多交流，共同进步。

2、本人是从事基于深度学习相关研究的一名博士，目前博士在读第5年。深感自己在机器学习/深度学习理论知识和实际调参经验方面都不够系统，今年希望能够跟随李宏毅教授的机器学习2023的作业在理论和实践方面都得到提升。
3、本次博文总结主要记录3种模式的方法处理Framewise Phoneme Prediction问题时的调参心得与历程，3种方法的大致架构如下图所示，第1、2种为能够达到Strong Baseline的方法，第3种为能够达到Boss Baseline的方法。

4、第1种为助教样例代码里的全连接层堆叠的方法，第2种方法为将全连接层（除最后一层）替换为LSTM层提取时序特征，这种方法主要是把最后一层LSTM的最后时刻的隐层特征（Pytorch代码中表示为h_n）输入到全连接层映射到对应类别数，模型输入需要在第1种的助教样例代码里加入Reshape函数进行处理，是Frame-wise Classification的方法，第3种方法与第2种结构相似，不同之处在于是把最后一层LSTM的输出（Pytorch代码中表示为output）输入到全连接层映射到对应类别数，模型输入需要自行整理代码实现数据预处理（即把每一段语音序列切割成等长的子序列用于训练），是Sequence-wise Classification的方法。

【视频分享】

如果在文章上想把Boss Baseline的方法讲明白，那可能需要好几万甚至几十万字，因为可能需要先讲明白前两种方法，加上涉及的领域知识会有点多，字数太多了也不利于阅读。因此，录制了以下3期视频，系统梳理上述3种方法。

【深度解析→视频分享】李宏毅机器学习2023作业02Classification-第一期

【深度解析→视频分享】李宏毅机器学习2023作业02Classification-第二期

【深度解析→视频分享】李宏毅机器学习2023作业02Classification-第三期

【作业详情】

1、【作业简介】李宏毅教授的助教也将作业02Classification进行了详细的介绍，包括：作业内容解读、Kaggle提交介绍、代码调参提示和样例代码详解，视频已搬运至知乎和B站，详情见【知乎】【B站】。
2、【先修视频】：该作业在李宏毅教授课程官网列了五个先修视频（是李宏毅老师2021年的机器学习课程视频，课程网页：https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php），但我个人觉得其视频整理的有点问题，包括2021年的课程网址上整理的也有问题，因为我仔细看过了，认为先修视频应该是共有六个，【建议】按照我整理的顺序进行观看。因为B站上转载视频总是撞车导致无法上传，我只能按顺序整理到知乎上了【先修视频01】【先修视频02】【先修视频03】【先修视频04】【先修视频05】【先修视频06】。
3、【强烈建议】：以上六个先修视频建议在做作业二之前全部认真看一遍，并建议在做作业过程中调参无法继续有效时，返回去反复观看以上六个先修视频，这样是有助于在实践中掌握如何有效调参。作为过来人，本人非常不建议按照所谓打卡的形式对机器学习/深度学习系列的视频进行机械式的观看（哪怕是李宏毅老师这么趣味性的讲解都会容易坚持不下去），务必注意理论知识观看顺序、动手实践作业调参，这样有助于系统掌握机器学习/深度学习。
4、【Boss Baseline先修视频】：在本人的知乎主页还上传了另外7个先修视频，2个是李宏毅老师2020年课程网页的RNN讲解视频（实际录制时间是2017年，最后一次正式出现在课程网址是2020年了），另外5个是之前学习看到过的王树森老师的RNN相关讲解视频。如果想要本次作业达到Boss Baseline的话，建议按顺序过一下这些视频：【先修视频07】【先修视频08】【先修视频09】【先修视频10】【先修视频11】【先修视频12】【先修视频13】。

【调参记录】

【Simple Baseline：0.49798】

1、第1种模式的方法下：直接跑通助教的样例代码，这里concat_nframes在样例代码中为3，即可达到Simple Baseline，下图是我的提交记录截图2、第2种模式的方法下：这里将concat_nframes设置为11了（模型输入需要在第1种的助教样例代码里加入Reshape函数进行处理，其它保持与样例代码一致），即可达到Simple Baseline，下图是我的提交记录截图

【Medium Baseline：0.66440】

1、第1种模式的方法下：修正样例代码错误&concat_nframes设置为11&Epoch数为30&使用Report Question提示的Wider模型（设置hidden_layers = 2，hidden_dim = 1750）即可达到Medium Baseline，下图是我的提交记录截图2、第2种模式的方法下：修正样例代码错误&concat_nframes设置为11&Epoch数为30&使用双向LSTM（模型输入需要在第1种的助教样例代码里加入Reshape函数进行处理，其它保持与样例代码一致），即可达到Medium Baseline，下图是我的提交记录截图

【Stong Baseline：0.74944】

1、第1种模式的方法下：concat_nframes设置为43&Epoch数为3000&设置hidden_layers = 6，hidden_dim = 1750&学习率初始值为1e-3&添加BN和Dropout（设置drop_rate为0.5），即可达到Stong Baseline，下图是我的提交记录截图2、第2种模式的方法下：concat_nframes设置为35&Epoch数为30&使用双向GRU&hidden_layers = 8，hidden_dim = 256&dropout_rate=0.5，（模型输入需要在第1种的助教样例代码里加入Reshape函数进行处理，其它保持与样例代码一致），即可达到Stong Baseline，下图是我的提交记录截图第2种模式的方法对应的核心代码如下：Reshape函数位于Classifier定义中forward()函数的第二行，其它部分均与样例代码保持一致即可。

import torch.nn as nn
import torch


class BasicBlock(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(BasicBlock, self).__init__()

        # TODO: apply batch normalization and dropout for strong baseline.
        # Reference: https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html (batch normalization)
        #       https://pytorch.org/docs/stable/generated/torch.nn.Dropout.html (dropout)
        self.block = nn.Sequential(
            nn.Linear(input_dim, output_dim),
            nn.ReLU(),
        )

    def forward(self, x):
        x = self.block(x)
        return x


class Classifier(nn.Module):
    def __init__(self, input_dim, output_dim=41, hidden_layers=1, hidden_dim=256, drop_rate=0):
        super(Classifier, self).__init__()
        self.lstm = nn.GRU(input_size=39, hidden_size=hidden_dim, num_layers=hidden_layers, bidirectional=True,
                            batch_first=True, dropout=drop_rate)
        self.fc = nn.Linear(hidden_dim*2, output_dim)

        # self.fc = nn.Sequential(
        #     BasicBlock(input_dim, hidden_dim),
        #     *[BasicBlock(hidden_dim, hidden_dim) for _ in range(hidden_layers)],
        #     nn.Linear(hidden_dim, output_dim)
        # )

    def forward(self, x):
        b = x.shape[0]
        x = x.view(b, -1, 39)  # b,l*hin ==>b,l,hin
        x, h_n = self.lstm(x, None)  # x:b,l,h  h_n:d*num_layer,b,h
        # x = x[:, -1, :]  # final state of final layer  ==>  x:b,h
        x_fd = h_n[-2, :, :]  # forward final state of final layer  ==>  x:b,h
        x_bd = h_n[-1, :, :]  # backward final state of final layer  ==>  x:b,h
        out = self.fc(torch.cat([x_fd, x_bd], dim=-1))
        return out

【Boss Baseline：0.83017】

1、根据验证集的指标看（这次的作业根据计算的验证集的Acc和测试集的Acc进行对比，发现两者基本是相等的，当我没有在验证集上获得大幅提升的更好的结果时，比如0.8，我就没有去进行提交），第1种模式的方法下，我这边预计能调到最佳的结果为0.773左右；第2种模式的方法下，我这边预计能调到最佳的结果为0.789左右。
2、第3种模式的方法下，模型输入需要自行整理代码实现数据预处理（即把每一段语音序列切割成等长的子序列用于训练）：切割子序列长度为100&切割步长为40&&Epoch数为300&使用双向GRU&hidden_layers = 10，hidden_dim = 115&dropout_rate=0.4&学习率初始值为1e-3&使用CosineAnnealingLR策略&train_ratio=0.85&使用标签平滑正则化，最终提交结果为0.83205，下图是我的提交记录截图使用3个模型Ensemble策略提交的记录如博客最上方的图所示，结果是0.85201（Public Test排名第6），如果切割子序列长度继续增加、顺着hidden_layers = 10，hidden_dim = 115继续微调模型、Ensemble模型个数再增加一两个，应该可以继续提升分数，当然，如果升级模型采用Transformer的结构，应该分数也会得到进一步提升。

【资源链接】

【2023机器学习】的系列资料包括视频、课件、代码等资源已经系统顺序命名并整理到百度网盘：https://pan.baidu.com/s/1-zfs0wn5rccTRVk34YZWaA，提取码：2023。

【写在最后】

【原创&整理不易，我的是文章如果有帮到你，或者你觉得还不错，麻烦点赞&关注支持下（你的支持将是激励我坚持创作的动力之一）】
【通过Strong Baseline和Boss Baseline的完整训练+测试的代码可私信获取】

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

深度学习

人工智能

【深度解析→博文总结】李宏毅机器学习2023作业02Classification(Framewise Phoneme Prediction) 的相关文章

蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
扬帆证券：三只松鼠去年扣非净利预增超1.4倍

在高端性价比战略驱动下三只松鼠 300783 重拾增势 1月15日晚间三只松鼠发布成绩预告预计2023年度净赢利为2亿元至2 2亿元同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元同比增速达146 9 至17
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

MATLAB求矩阵最大、最小值

矩阵求最大最小值用max min函数 max A min A 返回行向量求每列最大最小值 max A B min A B 返回一个A B中比较大较小元素组成的矩阵 max A dim min A dim dim 1 比较A的列 di
PowerOJ 2543: 赛场布置

题目链接对于每个点它可以选择男或者女如果要加上的贡献那么相邻的一定得是异性才可以所以对相邻的我们可以考虑成然后我们对于点坐标的的奇偶性分别讨论即可当然还需要考虑的贡献然后就是全选减去最少割去的即可 include
iOS面试题（2.类变量的@protected，@private，@public，@package声明各有什么含义）拓展：常用框架和第三方框架

2 类变量的 protected private public package声明各有什么含义 private 作用范围只能在自身类 protected 作用范围在自身类和继承自己的子类默认 public 作用范围最大可以在任何地方被访
nginx匹配以XXX结尾的

匹配以do结尾的所有文件如http 192 168 126 168 8080 delivery transportPlanData do startRelease 2019 07 06 endRelease 2019 07 06 sear
初识Composer

文章目录依赖管理工具Composer 参考 1 简介 2 安装Composer 3 声明和安装依赖 4 自动加载 5 模块仓库依赖管理工具Composer 参考 Composer 中文网 Packagist 中国全量镜像官方地址htt
cygwin的git vscode中的使用

背景需要用到cygwin 编辑器是vscode 版本 vscode 版本1 55 cygwin版本2 11 2 1 cygcheck c cygwin cygwin的git2 17 cygcheck c git vscode报错 open
算法篇-------贪心2

文章目录题目1 活动选择题目2 无重叠区间题目3 最多可以参加的会议数目题目4 去除重复字母题目5 移掉K位数字题目6 拼接最大数题目1 活动选择有n个需要在同一天使用同一个教室的活动a1 a2 an 教室同一时刻只能由一个
linux指令_龙红云

一基础指令 1 ls指令 ls 列出当前目录下的所有文件文件夹的名字 ls root 列出root下的所有文件文件夹的名字 ls l 以详细列表的形式展示 ls la ls a 显示所有文件文件夹包含了隐藏文件文件夹 ls lh
Spring学习总结

因为是学习总结所以参考了很多资料做的博客如果有侵权请联系我写的不对的欢迎指出 Spring 开源的轻量级框架 Spring核心 IOC 控制反转控制反转还有一个名字叫做DI Dependency Injection 中文意思叫依赖
Python轻量级Web框架Flask（9）——图书馆项目

1 项目要求创建一个项目用来说明出版社书籍和作者的关系作者和书籍之间的关系 1对多一本书由一个作者完成一本书可以有多个创作者出版社和书籍之间的关系多对多一个出版社可以出版多本书一本书可以由多个出版社出版要求 1 在书籍
React项目开发常用API

记录一下React项目开发常用API 作为后续开发的参考路由配置配置文件形式 router index js import React lazy Suspense from react Suspense配合lazy实现懒加载 const
Golang 微框架 Gin 简介

框架一直是敏捷开发中的利器能让开发者很快的上手并做出应用甚至有的时候脱离了框架一些开发者都不会写程序了成长总不会一蹴而就从写出程序获取成就感再到精通框架快速构造应用当这些方面都得心应手的时候可以尝试改造一些框架或是自己
element-ui的table动态渲染表头
ruoyi管理系统+微信小程序登录解决

原料 ruoyi管理系统项目模板基于springboot 微信小程序项目阿里云服务器有域名有ssl证书阿里云服务器的ssl证书可以买一个仅限一年免费的那个证书注意事项 1 微信小程序调用云服务器接口需要https csdn ne
Android：usb转232串口通信

准备工作首先得adb进入盒子root模式将 dev ttys1这个文件改为777 使得所有用户可操作 adb root adb remount adb shell 进入设备的root模式执行 chmod 777 dev ttys1 执
项目谷粒学院Day16-18

Day 16 07 13 统计分析模块后台准备工作创建统计表创建service statistics模块使用代码生成器生成代码创建启动类 SpringBootApplication ComponentScan basePacka
《Hadoop权威指南》书摘-HDFS概述

转载请注明出处独立博客 http wangnan tech 简书 http www jianshu com u 244399b1d776 知乎 https zhuanlan zhihu com c 121958856 设计超大文件已经
pthread_cond_timedwait

pthread cond timedwait pthread cond signal
Keepalived的权值问题（priority与weight）

在Keepalived集群中其实并没有严格意义上的主备节点虽然可以在Keepalived配置文件中设置 state 选项为 MASTER 状态但是这并不意味着此节点一直就是Master角色控制节点角色的是Keepalived配置文
【深度解析→博文总结】李宏毅机器学习2023作业02Classification(Framewise Phoneme Prediction)

文章目录系列文章简要说明视频分享作业详情调参记录 Simple Baseline 0 49798 Medium Baseline 0 66440 Stong Baseline 0 74944 Boss Baseline 0 830