GPT「高仿」问世:GPT-Neo,最大可达GPT-3大小,已开源

2023-11-03

GPT“高仿”问世:GPT-Neo,最大可达GPT-3大小,已开源

近日,有个名叫 EleutherAI的团队(创始成员为:Connor Leahy,Leo Gao和Sid Black),宣布推出GPT-Neo开源项目,可用于复现GPT系列的各种语言模型,也包括GPT-3。

作者表示,目前他们已经成功制造出GPT-2大小的模型。从项目代码的可扩展性来看,他们预计可以复刻出GPT-3大小的语言模型,甚至比GPT-3更大。不仅如此,由于这是个开源的项目,大家还可以自主训练这些模型(将来也会包括GPT-3)。目前,作者已经给出了详细的训练步骤。

本质上,GPT-Neo有点像是GPT系列的“高仿”项目:GPT-Neo中的各种模型,设计原理接近GPT系列,但代码并不一样。作者们打算尝试各种结构和注意力类型,最终扩展出GPT-3大小的大语言模型。为了实现这一目标,他们从复现GPT系列的模型开始,不断尝试各种模型架构、和各种注意力机制的实现方式。

这里面,融合了各种让模型变得“更大”的研究:例如,多任务学习方法MoE(Mixture of Experts),采用多个专家的结构,将问题空间划分为同质区域,然后采用分发器,决定问题应该问哪些专家。又比如,具有线性复杂性的自注意力机制等。

项目地址:https://github.com/EleutherAI/gpt-neo

智源学者陈文光荣获2020年“CCF杰出贡献奖”

1月18日,中国计算机协会(CCF)发布公告,决定授予智源学者、清华大学陈文光教授2020年“CCF杰出贡献奖”,以表彰他为CSP的权威性、专业性做出的杰出贡献。

“CCF杰出贡献奖”奖励对CCF有独特或重大贡献;就重大问题提出独到观点或建议被CCF采纳并产生良好效果;发起并组织CCF有影响力的新的系列学术会议;推动学会与其他组织合作,促进了CCF的发展;向学会提供大额捐赠或资助;有其他独特或重大贡献的个人或单位。该奖于2010年设立。

陈文光,国内系统研究的领军人物之一,中国计算机学会副秘书长,曾任ACM中国理事会主席、ACM中国操作系统分会ChinaSys主席、ACM 通讯中文版主编等。

陈文光研究概况(转自清华大学计算机科学与技术系的陈文光个人主页):

我长期研究高性能计算编程模型和编译系统,近几年在以图计算系统为代表的新一代大数据处理系统方面取得了进展。

2014年提出并实现了一种单机图处理引擎GridGraph,通过一种基于源和目的节点双层混洗的图数据结构,能够高效利用外存放置图的边,从而实现在单机上处理十亿结点以上的图。GridGraph性能比国际上同类单机图处理引擎如X-STREAM和GraphChi性能提高了一个数量级,论文在USENIX ATC 15上发表。

2016年初,进一步研制成功了名为”双子座“的分布式图计算系统,通过稀疏/稠密双模式计算引擎、稀疏性敏感的紧凑数据结构以及细粒度动态负载平衡等技术,在典型大数据分析应用(如PageRank, ALS等)上的性能是国际同类图计算系统PowerGraph和PowerLyra的十倍以上,是目前流行的大数据系统Spark性能的100倍以上,占用内存仅为其十分之一。论文在OSDI 16上发表。

上述系统软件已在github上开源:https://github.com/thu-pacman

通过北斗卫星定位和AI技术,中国在全球首次实现集装箱码头自动化

1月17日,在天津港集装箱码头自动化驾驶示范区内,25辆无人驾驶电动集装箱卡车成功在全球首次实现集装箱码头无人自动化的实船作业。无人驾驶电动集装箱卡车按照预设指令在自动化轨道桥下精准对位,装载集装箱后从自动化堆场自动驾驶,有序经过自动加解锁站,在北斗导航系统的指引下,按照实时测算的最优行驶线路,停靠到预定地点。然后,由远程控制自动化岸桥,从无人驾驶电动集卡上抓取集装箱,稳稳落在集装箱货轮上,整个流程中没有一名现场工作人员。

集装箱码头自动化升级,有3项关键技术:高精度卫星定位、自动驾驶,远程设备操控。

  • 通过精准的定位,将指定的货物精确地放置在特定的位置,是码头自动化运转的前提。2020年6月23日,北斗系统第55颗导航卫星成功发射。至此,标志着我国建成了独立自主、开放兼容的全球卫星导航系统。

  • 另一方面,自动驾驶技术逐渐成熟,并在货物运输领域率先实现大规模商用。以天津港为例,装载集装箱的货运车依据系统规划的行驶路线,可以精准停靠在预定地点。

  • 远程设备操控,对网络带宽、延迟、稳定性都有很高的要求,这就需要5G网络的支撑。



点击左下角“阅读原文”,了解更多!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GPT「高仿」问世:GPT-Neo,最大可达GPT-3大小,已开源 的相关文章

随机推荐

  • 基于VB脚本开发的机器人高级语言进行轨迹规划演示

    采用VB基本语言 在其中嵌入机器人运动控制指令 扩展成机器人高级编程语言 本例子演示的是高级螺旋线轨迹规划 movep 0 0 0 0 0 0 a 0 2 b 0 2 12 56 for i 0 to 12 56 step 0 01 x a
  • MNIST手写数字库格式转换(c++可用的格式)

    static int ReverseInt int i 转换魔数 读取数据库中的图片数 行数 列数等信息 unsigned char ch1 ch2 ch3 ch4 ch1 i 255 ch2 i gt gt 8 255 ch3 i gt
  • 在Windows7环境下使用GIT BASH免输入密码

    背景 根据一路向北的教 Windows下TortoiseGit over Putty or Openssh提交项目到GitLab 安装了TortoiseGit客户端 并完成在Gitlab上公钥的部署 但是有些操作必须通过GITbash命令行
  • 现代教育技术计算机网络试题及答案,《现代教育技术》期末复习题及答案

    现代教育技术期末复习1 一 填空题 1 教育技术就是人类在教育活动中所采用的一切 和方法的总和 它分为有形的技术 物化形态 和 的技术 智能形态 两大类 答案 技术手段 无形 2 学习资源主要包括教学材料 和 答案 支持系统 学习环境 3
  • UE4c++ Brush创建

    前言 UE4常用的new FSlateBrush的方式与正常的SlateStyle的方式就不说了 这类的文章很多 这里主要仿照引擎源码加载图片的方式加加载 参考源码 FTestStyle h class FMainStyle public
  • SpringBoot主程序运行及配置文件

    主程序运行 SpringBootApplication public class SpringbootApplication public static void main String args SpringApplication run
  • 5G 的未来

    目录 5G流量 5G应用场景 VR AR MR 5G关键技术 超密集组网 5G关键技术 动态自组织网 SON 软件定义网络SDN SDN与NFV的深度融合 5G挑战 频谱资源 新业务的挑战 新使用场景的挑战 终端设备带来的挑战 5G面临的安
  • 反射和多线程基础

    Version 邢朋辉 今日主播 邢朋辉 QQ 345086739 一 今日内容 1 1 课程回顾 1 2 反射是啥 1 3 进程和线程 1 4 线程的创建方式 1 5 线程的状态 1 6 线程的常用方法 二 课程回顾 Java的基本语法
  • R语言的常用的包

    在学习R的时候 R的包众多 很多时候对于初学者会造成很大的困扰就是不知道用什么样的包比较合适 我会在不断使用R的过程中 进行使用同时结合使用体验为大家推荐合适的R包 避免重复学习 以节约时间 标了 精 的是需要重点研究和掌握的包 1 数据导
  • 写CSDN博客时,调节字体、大小、颜色

    字体颜色样式系列 为了突出重点内容 想设置不同颜色 颜色挑选网址 https blog csdn net wo919191 article details 84249531 face设置字体 文本内容使用font标签包裹 可通过face设置
  • 查询tomcat可用 端口

    步骤一 cmd输入 输入 netstat ano 步骤二 查询端口号是否被占用 netstat aon findstr 端口号 步骤三 查询占用端口的应用 tasklist findstr 查询出的 listening 步骤四 taskki
  • 如果有多个异步函数需要保证同时执行并保证全部执行完毕后再进行下一步

    array push api post array push api get Promise all array then resArr gt resArr forEach res gt console log res 在 then后面判断
  • python3 抖音短视频链接去水印下载视频到本地

    基于近段时间对抖音 快手 秒拍等视频抓取一直想搞一下 加了个QQ群 里面全是自媒体 就是抖音 快手 秒拍的视频搬运工 把一个平台搬到另外一个平台上 去除水印 降低被干掉的危险 经过半天的琢磨 自己用python也搞出来一个根据抖音分享视频链
  • python用input输入列表_python怎么用input函数输入一个列表

    在Python3 0以后 键盘输入使用input函数 gt gt gt x input gt gt gt 123 123 在命令行没有任何显示 输入123后直接赋值给x 并打印 仅仅使用input是无法解决大部分数据处理的 通常输入的字符串
  • Python构建ANN模型预测气温变化

    在利用爬虫模型得到了气温数据集后 具体参考上篇Python构建爬虫模型爬取天气数据 我们开始利用tensorflow自带的模块搭建一个简单的ANN模型预测气温变化 其实这个模型适用于预测很多数据变化趋势 这里以预测气温变化为例 import
  • 数据结构--栈—JS实现一个栈结构

    数据结构 栈 JS实现一个栈结构 前言 数据结构和算法是脱离语言的 比如pop push在js中可以使用 但是其他的语言也有吗 不一定 但是都可以通过数据结构和算法写出其功能 1 栈是一种后进先出 LIFO last in first ou
  • 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte问题的解决

    utf 8 codec can t decode byte 0xd6 in position 0 invalid continuation byte 把 utf 8 改为 gbk
  • git进行commit撤销,并撤销远程push,回退到之前的版本

    刚开始使用版本管理工具 选择的是git 各种git终端 常用的有SourceTree TortoiseGit git GUI等 本人选择的是第一个 闲话不多说 当你commit并push本地代码到云服务器后 发现自己修改的有问题 但又不想重
  • 知识图谱学习--网易云唐宇迪老师课程记录

    一 知识图谱是什么 知识图谱是一种图模型 可以将各个实体的信息联系在一起 形成一个整体 知识图谱会应用各种不同技术 不仅限于NLP 还包括图像 推荐系统等 构建一整个关系网络 知识图谱在医疗领域的作用 二 知识图谱的数据怎么处理 1 数据怎
  • GPT「高仿」问世:GPT-Neo,最大可达GPT-3大小,已开源

    GPT 高仿 问世 GPT Neo 最大可达GPT 3大小 已开源 近日 有个名叫 EleutherAI的团队 创始成员为 Connor Leahy Leo Gao和Sid Black 宣布推出GPT Neo开源项目 可用于复现GPT系列的