快来动手训练属于自己的聊天机器人吧!

2023-10-26

3470036c41cc4d0217c212c3f712096c.gif

152a2d790e21e85e88bfaba23c070efa.jpeg

活动时间

北京时间2023年3月16日15:00-17:00

活动形式

在线直播——动手训练营

动手实践

outside_default.png

使用 Amazon SageMaker 构建基于开源 

GPT-J 模型的对话机器人应用

难度:入门

时间:20 分钟

开发者可以使用 Amazon SageMaker 构建一个交互式的人机对话应用 DEMO,尝试基于开源 GPT-J 模型的 Text Generation 技术。Amazon SageMaker 是亚马逊云科技公有云中的一项托管服务。作为一个云机器学习平台,可以让开发者在云中创建、训练和部署 ML 模型。

这一动手实验仅仅使用20行左右的代码,即可将开源的 GPT-J 模型部署到 Amazon SageMaker 的终端节点(Endpoint),实现交互式的人机对话。完成该动手实验的代码编写和模型部署预计需要20分钟。已经具有亚马逊云科技海外区域帐号的开发者,可以在直播同时一起动手完成该实验。

什么是 GPT-J:

GPT-J 是一种生成式预训练(GPT)语言模型,就其架构而言,它可与 GPT-3 等流行的私有大型语言模型相媲美。它由大约60亿个参数和28个层组成,包括一个前馈模块和一个自注意力模块。为 GPT-J 提供推理所需的内存要低得多——在 FP16 中,模型权重占用不到13 GB,这意味着可以在单个16 GB GPU 上轻松进行推理。

outside_default.png

使用Amazon SageMaker 优化 GPT-2 模型的编译和训练

难度:中级

时间:30分钟以上

该动手实验的目标是使用 Amazon SageMaker 训练编译器(Training Compiler)的功能,在 Stanford Sentiment Treebank v2 (SST2) 数据集上优化 GPT-2 模型的编译和训练。

LLM 模型基本都由复杂的多层神经网络组成,具有数十亿以上的参数,可能需要数千个 GPU 小时甚至更多时间才能完成训练。因此,在训练基础架构上优化此类模型需要丰富的深度学习和系统工程知识。尽管有些编译器的开源实现可以优化训练过程,但它们可能缺乏与某些硬件(例如 GPU 实例)集成的灵活性。Amazon SageMaker 训练编译器可以将深度学习模型从其高级语言表示形式转换为经过硬件优化的指令,从而加快训练速度,帮助减少总计费时间。

在动手实验中,我们将一起体验如何在Amazon SageMaker 中设置环境,包括权限设置、配置设置等。然后,我们将体验如何使用 Amazon SageMaker 训练编译器,在 SST2 数据集上训练 GPT-2 模型。Amazon SageMaker 训练编译器已集成到 Amazon 深度学习容器(DLC)中,使用这些容器在 GPU 实例上编译和优化 GPU 实例上的训练作业,只需对代码进行最少的更改。 

Amazon SageMaker 训练编译器参考文档:https://docs.aws.amazon.com/sagemaker/latest/dg/training-compiler.html

outside_default.png

使用 Amazon SageMaker 实现 BERT 模型的模型并行(Model Parallelization)训练

难度:高级

时间:60分钟以上

该动手实验的目标是使用 Amazon SageMaker 的模型并行库(Model Parallelism Library),来实现例如 BERT 这样的 LLM 模型的模型分布式并行训练。

在上周发布的《“顶流”AIGC:从论文解读深入探究 AIGC 和 LLM 的训练优化》在线直播中,我们详细分析了训练大型语言模型(LLM)涉及许多挑战,以及 Amazon SageMaker 的各项功能如何一一对应来帮助开发者应对这些挑战。其中的挑战之一就是面对大数据和大模型是扩展性(Scaling up)。本实验将探讨和演示如何使用 Amazon SageMaker 的模型并行库(Model Parallelism Library),来实现大模型的模型分布式训练。

扫描下方二维码或点击阅读原文

回看《“顶流”AIGC:从论文解读深入探究 AIGC 和 LLM 的训练优化》直播

f2b1c31ffb8add10912c6b27f7ffff17.png

模型并行性是一种训练无法容纳在单个 GPU 上的大型模型的方法。如果你正在研究从70亿个参数到1750亿个参数不等的模型,那么模型并行性就是实现这个目的的方法,这些模型太大了,不能放在单个 GPU 上。因此,我们需要一个并行策略来利用它们。使用 Amazon SageMaker 的模型并行库,可以训练由于 GPU 内存限制而难以训练的大型语言模型。该库可自动高效地将模型拆分为多个 GPU 和实例。使用该库,开发者可以高效地训练具有数十亿或数万亿个参数的 LLM 模型,从而更快地实现目标预测精度。

Amazon SageMaker 的模型并行库参考文档:https://docs.aws.amazon.com/sagemaker/latest/dg/model-parallel.html

* 由于直播时间有限,实验二和实验三将由老师讲解为主。有兴趣的开发者可以根据老师提供的 Jupyter Notebook 文档进一步动手实践和深入研究。

演讲嘉宾

黄浩文,亚马逊云科技资深开发者布道师

专注于 AI/ML、Data Science 等。拥有20多年电信、移动互联网以及云计算等行业架构设计、技术及创业管理等丰富经验,曾就职于 Microsoft、Sun Microsystems、中国电信等企业,专注为游戏、电商、媒体和广告等企业客户提供 AI/ML、数据分析和企业数字化转型等解决方案咨询服务。

ca37c089901d397e5b46713a498b10c5.jpeg

0b7695d2bd424fddf3e54ed1ba04329e.gif

7efc914aea778257972d1d4b7d2d0d0c.gif

听说,点完下面4个按钮

就不会碰到bug了!

a34227117d07fc1cd058c12b7bd730ba.gif

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

快来动手训练属于自己的聊天机器人吧! 的相关文章

  • Elasticsearch框架基础概念

    Elasticsearch ES 是一个基于Lucene构建开源分布式搜索引擎并提供Restful接口 Es是一个分布式文档数据库 JSON数据格式存储 类似MongoDB JSON中的每个字段数据都可作为搜索条件 并且能够扩展至数以百计的
  • Mysql查询数据库表中前几条记录

    Mysql查询数据库表中前几条记录问题 我想好多朋友也会碰到 下面我简单的说下我遇到的情况 且解决方法 希望对好多朋友有许多帮助 下面是我数据库test中表student的数据 其中第二条记录被我删除了 在查询分析器中输入select fr
  • Deep Learning:基于pytorch搭建神经网络的花朵种类识别项目(内涵完整文件和代码)—超详细完整实战教程

    基于pytorch的深度学习花朵种类识别项目完整教程 内涵完整文件和代码 相关链接 超详细 CNN卷积神经网络教程 零基础到实战 大白话pytorch基本知识点及语法 项目实战 文章目录 基于pytorch的深度学习花朵种类识别项目完整教程
  • Java集合 —— Map集合

    目录 1 Map接口和Collection接口的不同 2 Map集合的特点 3 Map集合的功能 4 HashMap原理 谈谈你对HashMap的理解 HashMap的数据插入原理是怎样的 5 HashTable特点 6 LinkedHas
  • Unity游戏开发 怪物巡逻AI

    今天实现的内容是怪物AI 看了一些网上的AI 不是特别符合我的需求 于是就自己研究了一种AI 大致和魔兽类的RPG游戏效果差不多 AI效果如下 1 将怪物分为如下几个状态 待机状态 该状态内有3种行为 原地呼吸 原地观察 和游走 可通过权重
  • 汇编语言(王爽第三版)实验九

    实验九 题目与个人思路 编程 在屏幕中间分别显示绿色 绿底红色 白底蓝色的字符串 welcome to masm 在80 25彩色字符模式下 显示器可以显示25行 每行80个字符 根据题意大致效果如下图所示 11行的起始地址计算10 80
  • C语言典型例题二——杨辉三角

    C语言典型例题二 杨辉三角 杨辉三角 C语言中的位运算有哪些操作符 杨辉三角 1 杨辉三角最本质的特征是 它的两条斜边都是由数字1组成的 而其余的数则是等于它肩上的两个数之和 这就是我们用C语言写杨辉三角的关键之一 杨辉三角是一种数学工具
  • Android Looper原理源码分析

    概要 在很久以前的时候转载了一小篇文章 Android Message Queue Message Looper Handler 白话介绍了一下Android Message Queue Looper Handler这几个概念之间的关系 其
  • windows下 mysql忘记root的密码怎么办

    如果mysql忘记密码无法登入 可以通过绕开输入密码登入的方式进行修改 步骤如下 1 右击 此电脑 点击 管理 打开 计算机管理 点击 服务与应用程序 点击 服务 2 找到mysql 先右击停用 再次右击mysql的打开属性对话框 3 在属
  • 942、增减字符串匹配——贪心+vector初始化方法

    文章目录 一 题目描述 二 题目分析 三 代码实现 四 总结 1 回顾一下 vector texttt vector vector 容器的几种初始化操作 一 题目描述 942 增减字符串匹配 由范围 0 n 内所有整数组成的 n
  • Go中 go-sql-driver 的使用

    go sql driver 是 Go 语言中一个常用的 MySQL 数据库驱动程序 支持 MySQL5 5 MySQL5 6 和 MySQL5 7 本文将介绍如何使用 go sql driver 包连接 MySQL 数据库 安装 在命令行中
  • linux计划任务5个*分表代表什么,linux 設置定時任務crontab

    前言 做自動化測試寫的腳本需要設置定制任務 在指定的時間去執行 這就需要用到定時任務 之前用jenkins可以在里面設置定時任務 很好用 其實在linux上也可以用crontab做定時任務 cron 在LINUX中 周期執行的任務一般由cr
  • Python在工业自动化领域的应用详解

    当我们开始讨论在工业自动化应用中使用哪种编程语言时 通常我们会首先谈论IEC 61131 3标准中用于可编程逻辑控制器 PLC 的语言 比如经典的梯形图 LD 或结构化文本 ST 对于机器人等应用 我们经常看到低级编译语言 比如C语言 这几
  • python代码规范快捷键_VS Code写Python的一些小技巧

    原标题 VS Code写Python的一些小技巧 本文基于 VS Code 1 36 1 为什么要用 VS Code 用 PyCharm 不好吗 VS Code 是开源免费的 PyCharm 是收费的 VS Code 除了 Python 还
  • Glcm 灰度共生矩阵,保姆级别教程,获取图片的Glcm和基于Glcm的纹理特征,附讲解思路,python代码的实现

    保姆级别教程 获取图片的Glcm和基于Glcm的纹理特征 附讲解思路 python代码的实现 网络上Glcm的原理很多 但是实现的python代码我确实没找到 讲的也不是很清楚 此文介绍了如何在一张图片中得到Glcm灰度共生矩阵 并基于Gl
  • opencv中矩阵运算

    opencv中矩阵运算 标签 1 cvLoadImage 将图像文件加载至内存 2 cvNamedWindow 在屏幕上创建一个窗口 3 cvShowImage 在一个已创建好的窗口中显示图像 4 cvWaitKey 使程序暂停 等待用户触
  • 理解ROC曲线,TPR与FPR

    在垃圾邮件判别模型中 邮件被判别为垃圾邮件为positive 被判别为非垃圾邮件为negative 那么 TPR TP TP FN 的含义是 垃圾邮件被正常判别为垃圾邮件的比例 FPR FP FP TN 的含义是 非垃圾邮件被判别为垃圾邮件
  • STM32的RTC时钟配置

    STM32的时钟可以使用内部RTC产生时钟日历 也可以使用外部芯片产生更为精确的时钟 如DS3231时钟芯片 本文介绍使用内部RTC产生时钟 RTC的时钟源有以下三种 HSE时钟除以128 LSE振荡器时钟
  • java reference variable,Java中的Object,Reference ID和Reference Variable之间有什么区别?

    What is difference between the following in java Object Reference ID Reference Variable When I see statements like this
  • xml转json的两种方法

    1 第一种方法 使用JSON JAVA提供的方法 之前一直使用json lib提供的方法转json 后来发现了这个开源项目 觉得用起来很不错 并且可以修改XML java中的parse方法满足自己的转换需要 1 首先去git下载所需的jav

随机推荐

  • Golang#Typora-Golang笔记

    知名编程语言或系统的发展简史 一 B语言 B语言之父 Ken Thompson 肯 汤普森 B语言是贝尔实验室开发的一种通用的程序设计语言 它是于1969年前后Ken Thompson 肯 汤普森 在Dennis Ritchie丹尼斯 里奇
  • SSM框架学习(4)CRM项目物理模型设计

    1 CRM的表结构 tbl user 用户表 tbl dic type 数据字典类型表 tbl dic value 数据字典值 tbl activity 市场活动表 tbl activity remark 市场活动备注表 tbl clue
  • C++ 11 std::enable_shared_from_this

    C 11 std enable shared from this 一 介绍 1 申明 std enable shared from this template lt class T gt class enable shared from t
  • JavaScript中的对象解释--访问对象属性、遍历属性for in、检测属性是否存在的方法...

    文章目录 目录 文章目录 1 对象访问属性 2 遍历 枚举 属性for in 3 检测属性是否存在的方法 4 模板字符串 反引号 二 总结 一 对象 1 对象访问属性 1 格式 对象 属性名 或对象 属性名 2 自定义对象 属性名 属性值
  • Ubuntu下使用微信

    介绍 由于微信官网 微信 是一个生活方式 没有linux版本的下载和安装方法 但微信确实提供了优麒麟发行版的官方版本 所以就有了下面的安装方法 安装方法 方法一 打开优麒麟应用商店官网微信微信作为一款国民级APP 已经成为我们日常生活中不可
  • flutter 渐变色

    flutter 颜色渐变 Positioned fill 使用绝对定位可全局渐变 可不用 child Container decoration BoxDecoration gradient LinearGradient 渐变位置 begin
  • 如何快速转载CSDN中的博客

    前言 对于喜欢逛CSDN的人来说 看别人的博客确实能够对自己有不小的提高 有时候看到特别好的博客想转载下载 但是不能一个字一个字的敲了 这时候我们就想快速转载别人的博客 把别人的博客移到自己的空间里面 当然有人会说我们可以收藏博客啊 就不需
  • Hyperledger Fabric 网络搭建详解

    写在前面 博主也是因为一些原因刚刚入坑区块链 我认为在我们入门新技术的时候 入门总是最困难的部分 只要入门了 后面学习起来就会越来越轻松 在网上找了很多文章 我觉得大多条理不是很清楚 本文章会详细介绍fabric v1 0 环境部署 以及在
  • 网络安全(黑客)自学笔记

    前言 作为一个合格的网络安全工程师 应该做到攻守兼备 毕竟知己知彼 才能百战百胜 计算机各领域的知识水平决定你渗透水平的上限 1 比如 你编程水平高 那你在代码审计的时候就会比别人强 写出的漏洞利用工具就会比别人的好用 2 比如 你数据库知
  • 用非阻塞的 socket connect

    呵呵 原来有人碰到跟我一样的问题 引用如下 这是网址 http cache baidu com c m 9f65cb4a8c8507ed4fece763104c8c711923d030678197027fa3c215cc79031c1d3a
  • pycharm中不能使用anaconda中包含的库的解决办法

    参考在pycharm中使用Anaconda之后 自己记录下来 防止以后找不到 1 打开pycharm 2 选择菜单栏中的file 文件 中的settings 设置 找到project后 选中project interpreter 点击右边的
  • Android读取设备内存大小

    获取系统运行内存 RAM 大小 public static String getRAMTotalMemorySize final Context context 获得ActivityManager服务的对象 ActivityManager
  • python新手怎么兼职-自学python可以做什么兼职

    很多朋友都会说 我身边有朋友或者同学是做程序员的 但是他们具体的工作内容 其实很多人是不了解的 这几年随着一些影视作品的出现 里面的主演有的从事开发工程师 大家初步有了一个印象 如果我不想去公司坐班 自己通过这个技能怎么来赚钱 推荐学习 P
  • 解决Unreal Engine 4.7.6的DerivedDataCache在C盘疯狂膨胀的问题

    打开 YourEngineFolder Engine Config BaseEngine ini 将 1 Local Type FileSystem ReadOnly false Clean false Flush false PurgeT
  • cnpm安装步骤

    安装nodeJS 官网下载 http nodejs cn download 选择其他版本下载地址 https nodejs org zh cn download releases 选版本点击下载 然后下载后缀名为msi 因为安装简单 选择好
  • 推荐学习方法——费曼技巧,以教促学,教学相长

    1 说到费曼技巧先来了解一下费曼这个人 费曼 全名理查德 费曼 美国著名物理学家 于1965年获得诺贝尔物理奖 在沉迷于美妙的物理世界的同时 他还热衷于教育事业 喜欢向人们深入浅出的讲解艰深的物理知识 在他的自传里 他提到曾纠结于某篇艰深的
  • java的反射机制

    Java的反射机制 1 定义 指程序可以访问 检测并修改本身的状态或行为的一种能力 并能根据自身行为的状态和结果调整或修改应用所描述行为的状态和相关的语义 简单来说 就是一种能自我修正的机制 2 意义 首先 反射机制极大的提高了程序的灵活性
  • 如何开启VT方法

    第 步 进入BOIS 重启电脑后 屏幕刚亮 笔记本一般快速按F1或F12 台式一般按DEL键 多按几下 成功后 会进入BIOS设置页面 第 步 找到 Intel Virtualization Technology 把 Disabled 修改
  • 跨平台方案Flutter入门——开发环境搭建

    目录 系统配置要求 获取 Flutter SDK 配置环境变量 安装 Android Studio 运行 flutter doctor 1 Anroid 的 SDK 路径 2 许可未同意 Android Studio 安装插件 Androi
  • 快来动手训练属于自己的聊天机器人吧!

    活动时间 北京时间2023年3月16日15 00 17 00 活动形式 在线直播 动手训练营 动手实践 使用 Amazon SageMaker 构建基于开源 GPT J 模型的对话机器人应用 难度 入门 时间 20 分钟 开发者可以使用 A