陈天奇等人新作引爆AI界

2023-05-16

来源:机器之心

「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」

8f6a7c2f73c4e607dfadde7716495927.jpeg

对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。

最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100 的。为了跑得起大模型,就要寻找各种优化方法。

在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3 到 ChatGPT 的快速调优方案。

最近这个叫 MLC LLM 的项目可谓一步登天,因为它能让你「在任何设备上编译运行大语言模型。

3f16315790d986c58c2e76ee153c4ca9.jpeg

MLC LLM 为我们在各类硬件上原生部署任意大型语言模型提供了解决方案,可将大模型应用于移动端(例如 iPhone)、消费级电脑端(例如 Mac)和 Web 浏览器。

该项目是由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的,参与者来自 CMU、华盛顿大学、上海交通大学、OctoML 等院校机构,同时也获得了开源社区的支持。

5e0b0390c60ea107cbe27d07ca886f1f.png

  • 项目地址:https://github.com/mlc-ai/mlc-llm

  • Demo:https://mlc.ai/mlc-llm/

借助 MLC LLM 方案,我们可以在移动端部署和运行大型语言模型,例如在 iPhone 上运行聊天机器人:

127ba207ba11e2629698034d5808784c.gif

在 Web 浏览器上运行聊天机器人:

46c6a9f56a04d0cf95170e19b77432e7.png

当然,在 Windows 和 Linux 上本地运行也是肯定可以的,聊天机器人应用程序能通过 Vulkan 平台在 GPU 上运行:

a0e9b60cdc61625f79b7491a08da723a.gif

MLC-LLM 推出不到两天,GitHub 的 Star 量已经接近一千。在社交网络上人们纷纷点赞,表示 MLC-LLM 让我领教了低精度跑 AI 的可怕程度:

62e44ddb2e5b5912685b5e4bfb0d12a6.jpeg

也有人晒出了自己的使用体验,iPhone 飞行模式本地跑大语言模型:

6934e971b01737f6a431320af3830f60.gif

简单来说,MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上。此外,MLC LLM 还提供了一个高效的框架,供使用者根据需求进一步优化模型性能。

MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和部署 AI 模型,而无需服务器支持,并通过手机和笔记本电脑上的消费级 GPU 进行加速。具体来说,MLC LLM 支持的平台包括:

  • iPhone

  • Metal GPU 和英特尔 / ARM MacBook;

  • 在 Windows 和 Linux 上支持通过 Vulkan 使用 AMD 和 NVIDIA GPU;

  • 在 Windows 和 Linux 上 通过 CUDA 使用 NVIDIA GPU;

  • 浏览器上的 WebGPU(借助 MLC LLM 的配套项目 Web LLM)。

项目概览

fac2c11d9b227083ed80fd54ac10367e.png

为了实现在各类硬件设备上运行 AI 模型的目标,研究团队首先要解决计算设备和部署环境的多样性问题,主要挑战包括:

  • 支持不同型号的 CPU、GPU 以及其他可能的协处理器和加速器;

  • 部署在用户设备的本地环境中,这些环境可能没有 python 或其他可用的必要依赖项;

  • 通过仔细规划分配和积极压缩模型参数来解决内存限制。

  • MLC LLM 提供可重复、系统化和可定制的工作流,使开发人员和 AI 系统研究人员能够以 Python 优先的方法实现模型并进行优化。MLC LLM 可以让研究人员们快速试验新模型、新想法和新的编译器 pass,并进行本地部署。

原生部署

为了实现原生部署,研究团队以机器学习编译(MLC)技术为基础来高效部署 AI 模型。MLC LLM 借助一些开源生态系统,包括来自 HuggingFace 和 Google 的分词器,以及 LLaMA、Vicuna、Dolly 等开源 LLM。

MLC LLM 的主要工作流基于 Apache TVM Unity,通过扩展 TVM 后端使模型编译更加透明和高效。

  • Dynamic shape:该研究将语言模型烘焙(bake)为具有原生 Dynamic shape 支持的 TVM IRModule,避免了对最大输入长度进行额外填充的需要,并减少了计算量和内存使用量。

  • 可组合的 ML 编译优化:MLC LLM 可以执行许多模型部署优化,例如更好的编译代码转换、融合、内存规划和库卸载(library offloading),并且手动代码优化可以很容易地合并为 TVM 的 IRModule 转换,成为一个 Python API。

  • 量化:MLC LLM 利用低位量化来压缩模型权重,并利用 TVM 的 loop-level TensorIR 为不同的压缩编码方案快速定制代码生成。

  • 运行时(Runtime):TVM 编译生成的库能够通过 TVM runtime 在设备的原生环境中运行,TVM runtime 支持 CUDA/Vulkan/Metal 等主流 GPU 驱动以及 C、JavaScript 等语言的绑定。

此外,MLC 还为 CUDA、Vulkan 和 Metal 生成了 GPU shader,并通过 LLVM 支持多种 CPU,包括 ARM 和 x86。通过改进 TVM 编译器和运行时,使用者可以添加更多支持,例如 OpenCL、sycl、webgpu-native。

MLC-LLM 的发布让我们再次感受到了陈天奇 TVM 的力量。

e155c353e64126ab95f030b35225f4f2.png

陈天奇是机器学习领域知名青年学者,2019 年任卡耐基梅隆大学机器学习、计算机科学系助理教授。早在 2017 年,他和他的同时开源了著名深度学习框架 TVM,对业界产生了深远的影响。利用这一工具,机器学习算法可以自动编译成可供下层硬件执行的机器语言,从而可以利用多种类型的算力。

在人们的努力下,我们或许很快就能看到云 + 端侧分别部署大模型的下一代应用。

参考链接:

https://zhuanlan.zhihu.com/p/625959003

https://mlc.ai/mlc-llm/

https://mlc.ai/web-llm/

https://github.com/mlc-ai/web-llm/tree/main

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

70dad4fc11d33ac1ad12b2e9f3848d98.jpeg

👆 长按识别,邀请您进群!

b31ec8f43c9577c65cd739e1d5634392.gif

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

陈天奇等人新作引爆AI界 的相关文章

  • 短视频如何创作?掌握这些技巧,可以让你的短视频更火。

    现在短视频越来越受到大众的喜爱 xff0c 大概现在每个人坐车休假吃饭都在拿着手机刷着短视频 xff0c 可见现在短视频对于现在的人来说还是挺普遍的 xff0c 那么很多人都想从事短视频行业应该如何去进行创作呢 xff0c 下面就和大家分享
  • 短视频如何写爆款文案?爆款短视频文案技巧分享

    现在短视频越来越火热 xff0c 但是在短视频创作当中 xff0c 第一注重的就是视频 xff0c 文案是搭配辅助 xff0c 如果你的视频是走的内容风格 xff0c 那么文案对于你的短视频账号来说也是非常重要的 xff0c 要吸人眼球 x
  • OpenVINO 从yml处提取model下载链接,以mobile-ssd为例

    背景介绍 xff1a 最近需要下载公开模型 xff0c 无法从intel OpenVINO官方模型下载脚本中下载 报告ConnectionResetError Errno 104 Connection reset by peer xff0c
  • 短视频剪辑怎么做?4步教你快速入门

    最近看到很多小伙伴在问 xff0c 做短视频自媒体需要具备哪些技能 xff1f 要准备什么工具 xff1f 今天就给大家盘点一下 xff0c 短视频剪辑怎么做 xff0c 怎样才能快速入门 xff1a 01 剪辑软件 入门级别 xff1a
  • 短视频脚本怎么写?6个套路

    做短视频的基础就是脚本 xff0c 脚本是创作的基石 xff0c 是贯穿这个视频始末的逻辑 那么 xff0c 短视频脚本怎么做呢 xff1f 其实 xff0c 在拍摄脚本里面 xff0c 我们可以把所有的东西拆分为以下 6 个要素 xff1
  • 手机剪辑视频教程,初学者也能学会,上手快

    在过去的推文中 xff0c 和大家无数次的分享过剪映 xff0c 这是一个手机上就可以轻松实现视频剪辑的工具 xff0c 操作简单 xff0c 快速上手 对于想做短视频 xff0c 但是没有电脑的小伙伴 xff0c 如果你会用剪映 xff0
  • 推荐几个免费且高质量无版权的视频素材网站,记得收藏

    今天这篇文章给大家分享视频素材网站 xff0c 希望对大家有帮助 1 Coverr 第一个网站是Coverr Coverr是一个高质量的无版权视频素材下载网站 xff0c 有分类 xff0c 可以英文搜索 这个网站的视频素材质量还是很高的
  • 如何创作出优质的短视频文案?

    在短视频平台上进行创作 xff0c 视频才是重心点 xff0c 文案只不过是绿叶的辅助作用 xff0c 但常刷视频的小伙伴不难发现 xff0c 其实很多时候一句优质文案就可以把一条短视频推上热门 下面就和大家讲讲如何写出优质的文案 xff1
  • 短视频文案怎么吸引人,这几个技巧助你成为文案高手

    一 xff0e 人物状态 43 情感宣泄 61 情感共鸣 想要自己的视频上热门 xff0c 一定要和粉丝产生情感共鸣 xff0c 这样才能促使粉丝点赞 评论 转发 下面这个视频中的文案标题 xff1a 今天给外婆寄生活费回去 xff0c 电
  • 自媒体账号如何注册申请

    如何利用自媒体挣取到人生第一桶金 xff0c 建议大家可以从以下几个方面入手 一 申请自媒体账号 申请自媒体账号需要的材料 xff1a 身份证 xff0c 手机号 xff0c 辅助材料 xff1a 微信公众号或者博客写过文章的都可以 如果实
  • 自媒体人必备,5个免费找短视频素材的网站,赶紧收藏

    大家都知道做自媒体贵在坚持 xff0c 刚开始的时候你会发现还挺容易的 xff0c 但是到后面你会发现不知道发什么内容 xff0c 这时候可以用一些外部的素材来进行创作 xff0c 今天呢 xff0c 小易就给大家分享5个找视频素材的网站
  • 自媒体怎么做?5个操作步骤,普通人也可以做

    根据调查显示 xff0c 目前大家最爱做的副业就是自媒体 每天花1 2小时的时间 xff0c 不用才艺和露脸 xff0c 每天收入200左右 xff0c 比上班的工资还高 xff0c 操作非常的简单 小易整理了5个自媒体新手入门的操作步骤
  • 超好用的4个短视频素材下载网站,快收藏下来

    做过短视频运营的都知道 xff0c 最难的就是找素材 xff0c 在保证素材不侵权的情况下 xff0c 还有找高质量的内容 xff0c 真的很不容易 xff0c 很多人在这一步就已经头秃了 因此 xff0c 今天给大家安利一些超级好用的短视
  • [转] CMake入门

    转载说明 文章转自网络 xff0c 版权归原作者所有 xff0c 原文链接 https www hahack com codes cmake 特别感谢发哥 写代码的篮球痴 分享 文章目录 什么是 CMake 入门案例 xff1a 单个源文件
  • 抖音自媒体平台上最容易上热门的7大领域,你知道吗?

    抖音覆盖的内容领域日益广泛 xff0c 因此 xff0c 运营者在入驻抖音平台的时候不能过于草率 xff0c 不能单纯地根据个人偏好来确定账号的运营方向 本文将主要介绍在抖音平台上最容易上热门的7大领域 xff0c 以此来帮助运营者更好地进
  • 自媒体如何打造爆款呢,应该怎样掌握热点信息

    为什么优质的自媒体博主每天都在打造爆款 xff0c 无论是写文章还是拍视频 xff0c 他们的浏览量总位居前列 主要原因是因为平台推荐 xff1f 粉丝用户庞大 xff1f 这只是一部分原因 xff0c 能让他们从小V转变成大V的主要原因
  • 自媒体账号如何快速涨粉打造爆款,快来get这份运营技巧

    一 账号内容 在注册账号之后 xff0c 我们就要开始构思我们要发什么样的视频 xff0c 要知道我们想要将一个账号做好 xff0c 肯定不是像朋友圈一样 xff0c 今天发个日常 xff0c 明天发个自拍 xff0c 这样发布的作品会比较
  • FSK和GFSK

    1 FSK频移键控 频移键控 xff0c 英文缩写FSK 正弦振荡的频率在一组离散值间改变的角度调制 xff0c 其中每一离散值表示时间离散调制信号的一种特征状态 频移键控是利用两个不同频率F1和F2的振荡源来代表信号1和0 用数字信号的1
  • 多图详解!10大高性能开发核心技术

    程序员经常要面临的一个问题就是 xff1a 如何提高程序性能 xff1f 这篇文章 xff0c 我们循序渐进 xff0c 从内存 磁盘I O 网络I O CPU 缓存 架构 算法等多层次递进 xff0c 串联起高性能开发十大必须掌握的核心技

随机推荐