斯坦福21秋 实用机器学习(李沐)1. 课程介绍、数据获取、网页抓取、数据标注

2023-05-16

 机器学习项目流程

 1. 把问题变成机器学习的问题

有的问题挺难的:叠衣服、开车

有些看似难得机器学习却容易做:翻译、

在工业界,很多问题多少会有一点自己特有的地方,需要对整个ML算法,能够做什么事 有个比较比较全面的了解

2. 收集数据、处理数据

3. 训练、调参

4. 模型部署到线上

5. 关注模型的性能:持续监控模型的预测的精度、线上延迟、...

例子:预测这个房子的价格、预测数字 是一个叫做回归的问题。

可能一开始不会去试任何什么特别高大上的深度学习的模型,我肯定是来训练一个比较简单的模型,比如说我就训练一个最简单的线性回归,主要是用来测试我的整个数据是怎么样子,用一个简单模型来测试数据的好坏

实务上可能会面临的问题:

数据的分布会发生变化,很有可能你在一些数据上训练一个模型,再去另外一个地方预测的话会有问题

比如说你在一个网站上,用户群体在发生变化的话,比如说你以前是一些比较年龄小一点的用户,整个用户的行为是不一样的

你在之前的数据上训练的模型在新的地方肯定是有问题,

或者是说你之前训练的模型,突然碰到一个节假日,整个用户的行为发生变化了,那么这时候你发现你的模型对于人的预测,是会有不一样的地方

领域专家、数据科学家、机器学习专家(对模型做定制化)、软件开发工程师(SDE) 

在真正的工业界的应用来说,需要去开发和维护大量的代码,大量的一些产品 一些组件,比如说包括了我怎么样把数据,实时的从产品那边抽取过来,然后做比较高性能的那些数据处理。

模型训练我也不是说 我在python里面点一个run,实际上来说你可能有很多的模型,可能几十个科学家在集群里面做模型训练,

数据科学家都在干什么:😆19%读数据、26%数据清理、21%数据可视化、11%模型选择、12%训练模型、11%部署模型。

data:

1)收集和处理数据

2)数据会有各种偏移,部署时候整个场景发生变化,导致数据covariance shift。

3)机器学习传统假设数据是独立同分布,就是每个数据每个样本是一个长的差不多,但现实中基本上没有东西是独立同分布的,都是多多少少是有一些结构化的东西在里面

数据获取

 

 

 数据集基本上2个来源:网上爬; 采集数据(无人驾驶、手写)

常见找数据集的地方:

 huggingface:专注于做文本的transformer 模型的一个数据集

 学术数据集    不那么适合来做产品啊或做应用,用来测试新算法

 数据融合

数据生成、数据增强

 

 在工业界,不要太去看说这个算法在学术界的数据集上表现怎么样,很多时候和真实的自己的原始数据上的表现可能会很不一样。

网页数据抓取

数据标注

  半监督学习啊其实当然是说你想有标志数据和没标志数据一起使用的话 ,对没有标志的数据和有标注数据的数据分布 做了一些假设:

1)连续性假设

一个样本和另外一个样本特征相似的话,那么这两个样本很可能有相同的标号

即:两个人的行为相近的话,那么这两个人的爱好可能是一样的

2)聚类的假设

我们通常会假设说数据啊他其实是按类分的,用户的群体,一类群体行为类似

数据你不是随机在整个空间里面均匀分布的,而是说按照一小丛一小丛分布的话,可以假设说一个类里面,数据啊可能会有比较相同的标号

当然,不同的类之间啊也可能是有相同标号的

3)流型假设

我们收集到的数据就是维度比较高,有很多很多不同的特征,但实际上 很有可能 数据在本质上是以在一个低维的一个流型上分布的。也就是说,数据内在的复杂性,远远的比你看到的那个维度要低,这样 可以通过降维,来获取更干净一点的数据

自学习

数据众包

  数据工厂、AI村、

Amazon SageMaker Ground Truth 在AWS上的一个服务,帮你标注数据

 

  主动学习:   区别于半监督学习  人会干预

 

 弱监督学习

半自动生产标号,能好到可以训练一个也还不错的模型

启发式的规则

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

斯坦福21秋 实用机器学习(李沐)1. 课程介绍、数据获取、网页抓取、数据标注 的相关文章

  • Failed to read artifact descriptor for xxx.jar

    mavne 项目 pom xml 文件标红 错误如下 xff1a Failed to read artifact descriptor for xxx jar Failed to read artifact descriptor for x
  • imx6q平台上移植mt7601

    本文描述如何将MT7601 WiFi模块移植到IMX6Q开发板上 xff0c 分析移植过程中碰到的问题 xff0c 分析错误原因 xff0c 提供解决办法 一 MT7601实物图 二 验证开发板和USB MT7601硬件是否正常 步骤1 x
  • 在图片上画出标注目标框和类别python程序

    在图片上画出标注目标框和类别python程序 xff0c 还是比较简单的 xff0c 直接上一份代码 xff1a usr bin python coding UTF 8 2018 07 11 by DQ import cv2 import
  • iOS性能监控及自动化测试辅助工具对比-tidevice、py-ios-device(pyidevice)、sonic-ios-bridge(sib)

    对比项 tidevice py ios device xff08 pyidevice xff09 sonic ios bridge xff08 sib xff09 是否开源 github地址 https github com alibaba
  • git中tag与release的创建以及两者的区别

    简介 本文辨析在参与开源项目时会遇到的tag与release的概念区别与联系 xff0c 并比较两者的创建方法 定义 标签 xff08 tag xff09 是特定提交 xff08 commit 一个指针 xff0c 也就是每个tag对应一个
  • 如何评价数仓好坏

    评价一个数仓的好坏可以涉及相当多的维度 xff0c 这里简单分享一些在实习时了解到的比较看重的方面 模型合理性 一个数仓模型的诞生往往是为了满足产品提出来的业务需求 xff0c 但是如果一个模型仅仅只能做到完全为这一次需求而服务的话 xff
  • 数据倾斜的判断方法和解决方案

    数据倾斜的判断方法 首先点开任务的sparkUI界面中的Stages xff0c 对Duration一列进行排序 xff0c 观察看有没有某个stage出现运行时间远大于其它stage的情况出现 xff0c 假设有的话 xff0c 就点开D
  • 数据开发中的资源管理优化(spark运行)

    在数据开发中 xff0c 资源管理主要看关注于队列整体的CPU使用率 xff0c 内存使用率或者单个任务的CPU使用率 xff0c 内存使用率 CPU使用率 默认情况下是一个core执行一个task 如果此时CPU利用率过低 xff0c 那
  • 互联网大厂SQL真题(二)

    题目 xff1a 每天的日活数及新用户占比 新用户占比 61 当天的新用户数 当天活跃用户数 xff08 日活数 xff09 如果in time 进入时间和out time 离开时间跨天了 xff0c 在两天里都记为该用户活跃过 新用户占比
  • 互联网大厂SQL真题(三)

    题目 xff1a 近一个月发布的视频中热度最高的top3视频 问题 xff1a 找出近一个月发布的视频中热度最高的top3视频 注 xff1a 热度 61 a 视频完播率 43 b 点赞数 43 c 评论数 43 d 转发数 新鲜度 xff
  • Spark三种常见JOIN方式

    Spark join 基本原理 Spark join的基本实现流程如下图所示 xff0c Spark将参与Join的两张表抽象为流式表 StreamTable 和查找表 BuildTable xff0c 通常系统会默认设置StreamTab
  • 遛一遛8266的定时器

    一 xff1a 简述 硬件为ESP LAUNCHER开发板 使用GPIO12 要求是某一定时间指示灯状态发生改变 ESP8266定时功能的实现有两种方式 xff1a 软件定时器和硬件定时器 软件定时器的接口在 ESP8266 NONOS S
  • MYSQL8.0以上版本忘记ROOT密码

    MYSQL8 0 43 忘记Root密码 xff1a 1 以超级管理员打开cmd xff0c 关闭mysql服务2 跳过权限验证登录mysql3 在新的窗口中登录mysql4 切换到mysql xff0c 将密码置空 5 设置加密规则并更新
  • 深度学习【13】tensorflow保存graph和参数为pb文件

    from tensorflow python framework graph util import convert variables to constants graph 61 convert variables to constant
  • plsql查询数据显示为乱码解决方法

    使用plsql查询数据显示为乱码 xff1a 查看数据库编码 xff1a 通过网上搜索 xff0c 发现需要设置环境变量 xff0c 添加以下环境变量 xff1a LANG 61 zh CN GBK NLS LANG 61 34 SIMPL
  • 对抗网络之目标检测应用:A-Fast-RCNN

    对抗网络之目标检测应用 xff1a A Fast RCNN 论文 xff1a A Fast RCNN Hard Positive Generation via Adversary for Object Detection 点击下载 Caff
  • make -j20 出现以下报错: Ensure Jack server is installed and started

    如果出现的报错是 xff1a build core ninja mk 148 recipe for target 39 ninja wrapper 39 failed 综上所述 xff0c 其实就是 xff1a Android7 0 xff
  • QT中 窗口部件的 背景图片 的设置

    QT中 窗口部件的 背景图片 的设置 分类 xff1a QT 2013 04 08 11 06 359人阅读 评论 0 收藏 举报 目录 43 如何设置对话框的自定义的背景颜色 xff1f 2010 03 14 14 34 11 分类 xf
  • 刷LeetCode的一些心得(0基础大龄转码上谷歌)

    我之前就是完全0基础 大龄转码 xff0c 刷题上千然后进谷歌的 这里0基础指的是没学过编程语言 xff0c 没学过数据结构和算法 xff0c 一上来就直接做题那种 第一道题two sum xff0c 我显然不会做 我的笨方法就是看答案 x
  • 在Centos8 中使用Stratis管理本地存储(一)

    导读Stratis是RHEL8 Centos8中提供的一个新的本地存储管理工具 xff0c 它将有助于在块设备上创建分层存储 在RHEL8 Centos8中 xff0c 可以通过安装两个软件包获得Stratis 在RHEL7 xff0c 我

随机推荐

  • ncat命令使用实例

    导读Ncat工具功能类似于cat命令 xff0c 但用于网络 它是一个命令行的工具 xff0c 用于跨网络读取 写入和重定向数据 它被设计成一个可靠的后端工具 xff0c 可以与脚本或其他程序一起使用 ncat可以是端口扫描工具 xff0c
  • Ubuntu 20.04 使用realmd加入AD域

    导读本文展示如何使用 realmd sssd将 Ubuntu 20 04加入到 Active Directory 域 本文还进一步为通过 AD 登录的域用户配置 sudo 规则 设置主机名和DNS 下面命令用来设置正确的主机名和dns服务器
  • Linux下合并文件

    导读 我们在先前的文章中介绍过 cat 命令 的使用 xff0c 了解到该 命令 用于获取文件内容并将其输出到屏幕或其他设备中 事实上 xff0c cat 命令的最初目的是连接文件 xff0c 所以我们可以用它来合并文件 我们在先前的文章中
  • 私有云有哪些优势?

    导读从RightScale 2017的报告中我们发现 xff0c 平均每家公司正在使用1 8个公有云和2 3个私有云 xff0c 同时正在准备使用1 8个公有云和2 1和私有云 从这项数据中我们不难发现 xff0c 公司对于私有云的使用程度
  • 通过sonic-ci-helper插件与Sonic平台结合实现多设备批量安装应用

    一 sonic ci helper 插件 sonic ci helper 是为对接Jenkins CI流程建设的小助手 下载地址 xff1a Sonic Download Center 两种安装方式 xff1a xff08 1 xff09
  • 在Centos8 中使用Stratis管理本地存储(二)

    本文介绍如何通过向现有Stratis池中添加新磁盘和添加缓存磁盘 下面将介绍添加 删除 快照等内容 系统环境 Centos8 向Stratis池中添加其他磁盘 在Stratis管理下 xff0c 将新的块设备添加到现有池非常容易 在上一篇文
  • ubuntu升级后,停留在tty1界面,进不去桌面

    ubuntu升级后 xff0c 提示输入用户名 密码 xff0c 出现以下界面 xff1a 无法显示桌面 输入startx xff0c 即可进入桌面
  • Debian 无法拉取 https 源 -----清华源Debind-stretch

    已经配置好的清华源tsinghua sources Debind stretch可以直接docker pull 无法拉取 https 源 Debian 的软件源配置文件是 etc apt sources list 将系统自带的该文件做个备份
  • 阿里云弹性计算资源

    1 弹性计算 1 1 轻量级应用服务器 针对轻量级应用而生 xff0c 共享容器化的服务器 xff0c 使用个人网站 中小企业网站 个人博客等应用 1 2 企业级服务器 xff08 ECS xff09 企业场景对业务稳定性的要求高 xff0
  • tensorflow2的GPU版本安装

    一 安装Anaconda与Python 详情直接参考我的这篇文章Anaconda安装与配置 二 安装CUDA 1 首先查看本机GPU对应的cuda版本 xff0c 如下图所示 xff0c 本机cuda版本为11 6 xff0c 后面选择的c
  • C#控件及常用设计整

    1 窗体 1 2 Label 控件 3 3 TextBox 控件 4 4 RichTextBox控件 5 5 NumericUpDown 控件 7 6 Button 控件 7 7 GroupBox 控件 7 8 RadioButton控件
  • 五、中断服务程序的流程

    1 中断服务程序的流程 保护现场 中断服务 恢复现场 中断返回 保护现场 xff1a 程序断点的保护 xff08 中断隐指令完成 xff09 xff0c 寄存器内容的保护 xff08 进栈指令 xff09 保护程序的断点 包含了两部分内容
  • 深度学习理论(李宏毅

    2022 再探宝可梦 数码宝贝分类器 浅谈机器学习原理 哔哩哔哩 bilibili more parameters easier to overfit why 但是怎么定这个有未知数的function呢 那通常假设你没有什么想法的话 往往你
  • CNN (吴恩达 2021

    week1 2 02 边缘检测例子 哔哩哔哩 bilibili 我们之前在说面部识别介绍过 xff0c 要识别面部 xff0c 都是从细微的边缘入手 xff0c 一层一层聚类 xff0c 最终实现人脸的识别 神经网络由浅层到深层 xff0c
  • Transformer(李宏毅2022)

    本讲内容 xff1a Seq2seq model xff0c 以Transformer模型为例 xff08 Encoder Decoder架构 xff09 应用 xff1a 语音辨识 语音翻译 语音合成 聊天机器人 NLP 文法剖析 mul
  • 【安全测试学习】基于bWAPP靶场,使用sqlmap实现脱库实战

    以上仅是个人学习安全测试整理 xff0c 如用于其它用途责任自负 xff01
  • 自监督模型 Self-supervised learning(李宏毅2022

    这个红色的怪物叫做ELMo 最早的self supervised learning model 作业四的模型也是个transformer xff0c 只有0 1个million 最早的是ELMo Cookie Monster等你来凑 x1f
  • 2021 神经网络压缩 (李宏毅

    首先 xff0c 为什么需要对神经网络模型进行压缩呢 xff1f 我们在之前的课程中介绍过很多大型的深度学习模型 xff0c 但当我们想要将这些大模型放在算力比较小的边缘设备或者其他IoT设备里面 xff0c 就需要对大模型进行压缩 Low
  • 李宏毅2023春季机器学习笔记 - 01生成AI(ChatGPT)

    一 引言 预设的知识储备要求 xff1a 数学 xff08 微积分 线性代数 机率 xff09 xff1b 编程能力 xff08 读写python xff09 这门课专注在 深度学习领域deep learning xff0c 事实上深度学习
  • 斯坦福21秋 实用机器学习(李沐)1. 课程介绍、数据获取、网页抓取、数据标注

    机器学习项目流程 1 把问题变成机器学习的问题 有的问题挺难的 xff1a 叠衣服 开车 有些看似难得机器学习却容易做 xff1a 翻译 在工业界 xff0c 很多问题多少会有一点自己特有的地方 xff0c 需要对整个ML算法 xff0c