chatGPT大规模使用kubernetes,云原生技术在AI领域也大有可为

2023-05-16

文章目录

      • 一、云原生在AI领域的应用方向
        • 1.1、弹性部署
        • 1.2、自动化和可维护性
        • 1.3安全性和隔离性
      • 二、云原生在AI领域的应用案例
        • 2.1、chatGPT全面使用云原生技术
        • 2.2、TensorFlow Serving和k8s及docker的集合
        • 2.3、AWS SageMaker
      • 三、云原生AI开发平台的发展

公众号: MCNU云原生,文章首发地,欢迎微信搜索关注,更多干货,第一时间掌握!
最近ChatGPT引爆了人工智能,除了人工智能,其他技术好像偃旗息鼓了。那人工智能的时代,云原生扮演什么角色呢?实际上随着人工智能技术的不断发展,云原生技术已经成为AI领域中不可或缺的一部分。云原生技术可以帮助开发人员更高效地构建、部署和管理AI应用程序,从而实现更好的性能和可靠性。本文将探讨云原生技术在AI领域的应用方向、应用案例以及云原生AI开发平台的发展。

一、云原生在AI领域的应用方向

云原生在AI领域其实也有很多的应用方向,最突出的是弹性部署、自动化和可维护性、安全和隔离。

1.1、弹性部署

云原生技术提供了一种弹性和可扩展的方式来构建和部署AI应用程序。开发人员可以根据需要添加或删除资源,以适应不同的工作负载。这种灵活性可以确保应用程序在任何情况下都具有最佳的性能和可靠性。

我们知道LLM(Large language Model )模型的训练和推理都需要大量的部署训练和推理应用节点,AI的训练是非常消耗资源的,这就更加需要“弹性”,根据实际需要动态调整应用程序的部署,而这明显是云原生的强项。

1.2、自动化和可维护性

云原生技术可以自动化许多与应用程序部署和管理相关的任务。例如,自动化部署、自动化扩展和自动化恢复。这种自动化可以大大减少人工干预,提高应用程序的可维护性和可靠性。

大规模的AI应用程序一般都是分布式部署,协同工作,应用程序部署扩展、失败维护等都是日常稀松平常的操作,但是动辄几千上万的应用,如果没有自动化的能力,靠人工的话,那可就违背“人工智能”的初心了。

1.3安全性和隔离性

AI应用程序通常需要访问敏感数据,因此安全性和隔离性非常重要。云原生技术可以提供一系列安全措施,如访问控制、加密和隔离,以确保数据的保密性和完整性。

二、云原生在AI领域的应用案例

2.1、chatGPT全面使用云原生技术

Openai官方博客介绍了chatGPT使用云原生技术支持模型的训练的。官方表示openai已将 Kubernetes 集群扩展到 7500 个节点,为GPT-3、 CLIP和 DALL·E等大型模型提供了可扩展的基础设施 ,同时也为神经语言模型快速小规模迭代研究提供了基础设施。

ChatGPT通过将其代码和依赖项打包成容器来进行部署和管理,容器化技术可以使ChatGPT应用程序在不同的环境中运行,而不会受到环境差异的影,同时Kubernetes提供了强大的容器编排和管理功能,可以自动化部署、扩展和管理应用程序。

ChatGPT的部署和运维是自动化的,可以通过持续集成和持续交付(CI/CD)流水线来实现。这种自动化技术可以使ChatGPT应用程序的部署和管理更加可靠和高效。另外ChatGPT应用的部署可以根据负载的变化自动调整其资源使用量,以实现弹性伸缩。

从官方博客介绍,chatGPT项目的监控也采用了云原生的相关技术,典型的使用 了Prometheus 收集时间序列指标,使用 Grafana 实现了图表、仪表板和警报。

2.2、TensorFlow Serving和k8s及docker的集合

TensorFlow Serving是一个基于云原生技术的开源软件,用于部署机器学习模型。它可以自动化处理模型版本控制、模型部署、模型监控和模型更新等任务。TensorFlow Serving可以自动化实现机器学习模型的部署和管理,使开发人员可以更专注于模型的训练和优化。

使用TensorFlow Serving的最好的方法是使用Docker镜像,能够非常简单的使用Docker Swarm和kubernetes部署TensorFlow Serving。

可以不管上层的模型框架如何变化,云原生技术都能够作为一些设施能力让这一切变得更加丝滑。

2.3、AWS SageMaker

AWS SageMaker是一种云原生的机器学习开发平台,可以帮助开发人员快速构建、训练和部署机器学习模型。它可以自动化处理许多与机器学习开发相关的任务,如数据准备、模型训练和模型部署。AWS SageMaker还提供了一系列可视化工具,以帮助开发人员更好地了解和优化模型性能,这一切都是向云而生的。

三、云原生AI开发平台的发展

除了以上的案例之外,有另外一个明显的趋势已经形成,那就是云原生AI开发平台。这一趋势正在加速,国内和国外的技术大佬和资本圈大佬都在往这个方面发力。

云原生AI开发平台指的是把云原生技术和平台与AI 应用相结合通过相应的技术配套和长期工程实践,来满足AI业务场景。

虽然类chatGPT的应用如火如荼,但是很多公司在实际使用大语言模型的时候却面临诸多的困难,例如资源投入太大、模型训练困难、周期长等等。而云原生AI开发平台正是为了解决这个问题。

未来将能够在云上开发AI应用,训练垂直领域的独特模型,有限的资源投入就可以看到一定的效果。例如在云上进行NLP超大模型训练,智能营销以及自动驾驶的应用,AI训练的速度、开发应用的速度都会大幅提升,成本将能够大幅下降。(这直接决定了企业愿不愿意投入研究)

云服务厂商纷纷推出自己的云原生AI平台和解决方案,例如百度的AI-Native架构实现AI一体化云服务,阿里的云原生AI解决方案全面支持GPU和CPU异构调度,腾讯云推出AI Paas服务等等。这些厂商都推出了全方面的解决方案,把云原生平台的能力和AI的能力结合在一起,共同提供服务。


(图片来源于艾瑞咨询报告)

云原生AI开发平台有以下的优势:

  1. 多云支持

    云原生AI开发平台将能够屏蔽实现多云支持,可以使企业更加灵活地管理和部署他们的AI应用程序,并在需要时快速迁移应用程序到其他云平台。

  2. 弹性计算

    能够根据当前的AI应用的工作负载自动弹性调整资源的使用量,优化成本和资源利用率。

  3. 自动化部署和管理

    云平台自动化部署和管理,由平台解决大部分的管理操作,部署简便,节省大量人力。

  4. 模型和训练数据集管理

    AI时代,模型的训练需要大量的数据集,需要有模型的管理和数据集的管理功能,例如目前火爆的hugging face,云原生的AI平台要具备相关的管理功能。

  5. 屏蔽底层异构架构

    云原生AI开发平台底层支持各种基础硬件,例如GPU、NPU、CPU等,支持对应的异构框架如英伟达的cuda、昇腾的CANN,支持多种计算框架和机器学习框架,如tensorflow、pytorch等,尽量屏蔽底层硬件和框架的差异,减少使用困难。

相信随着AI的快速发展,云原生也会迎来属于它新时代的辉煌。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

chatGPT大规模使用kubernetes,云原生技术在AI领域也大有可为 的相关文章

  • CentOS7 关闭防火墙

    CentOS6关闭防火墙使用以下命令 xff0c span class hljs comment 临时关闭 span service iptables stop span class hljs comment 禁止开机启动 span chk
  • 告别我的2016

    又过了一年 xff01 xff01 xff01 每一年都会因为所经历的不同 xff0c 收获也不同 在过去的2016年 xff0c 回想自己在工作上好像没有做多少事情 xff0c 却也有不一样的收获 2016年2月份 xff0c 刚过来春节
  • 判断某个月份是否在给定的月份区间内

    判断某个月份是否在给定的月份区间内 输入 指定月份 xff1a m m m 月份区间 xff1a m 1 m 1
  • 数据清洗

    1 概念 数据清洗 xff1a 把脏数据清洗掉 xff0c 提高数据质量 Data cleansing Data cleaning Data scrubbing三种表达方式都可以 xff0c 意思都是检测和去除数据集中的噪声数据和无关数据
  • 联想H61主板升级BIOS,支持nvme硬盘

    本教程升级有一定风险 xff1a 请阅读文章最后的 遗憾 部分接受再升级 最近因为手上有一台联想的i7 2600主机 xff0c 他的主板是H61的 xff0c 正好看见pcie接口空着 xff0c 在网上看见有人用它升级了拜滕的存储芯片
  • armv8 摘要

    作者 xff1a 蜗蜗 发布于 xff1a 2015 7 7 22 31 分类 xff1a ARMv8A Arch 1 前言 ARMv8 xff08 当前只有A系列 xff0c 即ARMv8 A xff09 架构 xff0c 是ARM公司为
  • android 绘制过程摘要

    1 没有硬件加速的UI绘制过程 xff1a 在Android应用程序进程这一侧 xff0c 每一个窗口都关联有一个Surface 每当窗口需要绘制UI时 xff0c 就会调用其关联的Surface的成员函数lock获得一个Canvas xf
  • opengl 摘要

    一 创建opengl工程 1 第一步设置像素格式 如支持双缓冲 xff0c 设置颜色模式 xff0c 如是rgba xff0c 还是颜色索引 xff08 需调色板 xff09 xff0c 设置模板缓冲区的特征值 2 第二步创建绘制环境 且自
  • Watchdog

    一 简介 软件狗 类似硬件狗 xff0c 硬件狗是被动等 喂 xff0c 系统主要线程主动调用硬件接口 xff0c 告诉系统本线程是正常的 但android 这种framework层中的软件狗本身是一个线程 xff0c 会主动询问系统关键线
  • android Binder 学习

    一 面向过程调用与面向对象调用的区别 1 面向过程调用同一时刻只能服务一个客户 xff0c 而且该过程必须具有锁功能 xff0c 如果有其他客户想要访问 xff0c 则需要等待前一客户完成操作 2 面向对象则能同时服务多个客户 xff0c
  • QEMU KVM 虚拟机移植之性能提高篇小结(android 虚拟机双系统方案)

    一 提升性能核心要素 1 将 OPENGL 接口进行穿透调用 xff0c 下面对opengl穿透做个小结 2 在arm开发板上打开kvm特性 xff0c 这个qcom amp mtk都是实现了的 xff0c 只需要打开开关即可 二 ANDR
  • android 系统基础知识

    一 Activity 启动模式 Activity有四种启动模式 xff1a standard singleTop singleTask singleInstance 可以在AndroidManifest xml中activity标签的属性a
  • android 内存管理概要

    一 zram zram swap 主要原理就是从内存分配一块区域出来用作 swap 分区 xff0c 每次如果内存空间不够了 xff0c 不是把应用程序杀掉 xff0c 而是把应用程序所占用的内存数据复制到 swap 分区 xff0c 等切
  • python统计从1970/1/1 08:00:00到某个时刻的总秒数

    使用场景 xff0c 比如需要从一堆文件中 xff0c 选出时间属性在2017年12月13日00 00 00以后的所有文件 span class token keyword import span os statinfo span clas
  • art知识简要概括

    一 GC分类 1 kGcCauseForAlloc 当没有足够的内存分配时触发 2 kGcCauseBackground 当已使用的内存超过最大值时触发 3 kGcCauseExplicit 当使用System GC时触发 二 GC守护线程
  • SEAndroid 知识点

    一 DAC 1 自主访问控制 Linux上的安全模型叫DAC xff0c 进程的权限与执行它的用户的权限一致 xff0c file针对所有者 所有者组 其他用户制定相关权限 二 MAC 1 强访问控制 SELinux上的安全模型叫MAC x
  • Cgroup 理解

    一 综述 1 cgroup 可以控制进程组的资源 xff08 cpu memory i o等 xff09 2 cgroup 采用树型结构来控制进程组的资源 3 cgroup 利用资源子系统来分割资源 4 cgroup 是lxc xff0c
  • namespace 理解

    当调用clone时 xff0c 设定了CLONE NEWPID xff0c 就会创建一个新的PID Namespace xff0c clone出来的新进程将成为Namespace里的第一个进程 一个PID Namespace为进程提供了一个
  • Bionic 学习

    一 基本概况 1 不与其他libc库兼容 xff0c 有自己的动态链接器 linker 2 不支持c 43 43 异常抛出 3 一共有libc xff08 c基础库 xff09 libm xff08 数学库 xff09 libdl xff0
  • 基于容器原理(docker、lxc、cells)的Android 双系统设计概要

    写在前面 前几年预研加开发android双系统 xff0c 中途用过不少开源代码或者研读过大牛BLOG xff0c 现开放双系统设计原理来回报社区 android容器技术已在android 6 7 8 9 10 11 12 13版本中分别实

随机推荐

  • Android手机可信引导解决方案

    1 概述 Android手机的可信引导过程 xff0c 主要分为三部分 xff0c lk的可信 xff0c boot的可信 xff0c 和system的可信 xff1b 系统上电到lk的启动过程验证 因为和硬件联系紧密 xff0c 基本都由
  • Android智能手机安全解决方案

    1 终端安全解决方案全景 1 1 Android系统框架预览 此外 xff0c 鉴于许多硬件厂商不希望公开其设备驱动程序 xff0c GOOGLE在运行时库层对下屏蔽实现细节 xff0c 对上提供统一接口增加了硬件抽象层 1 2 Andro
  • EFI secure boot

    一 EFI secure boot 是EFI BIOS中的一个子标签 xff0c 同时EFI BIOS提供证书管理功能 xff0c 系统可以同时拥有多个证书供用户选择 EFI只能执行经过正确签名的固件 EFI 证书种类比较多 xff1a P
  • TPM2.0读书笔记

    三种关联性技术 1 Intel TXT技术 2 TrustZone技术 3 AMD PSP技术 TPM实体 1 持久性hierarchy TPM RH PLATFORM 平台 TPM RH OWNER 存储 TPM RH ENDORSEME
  • 适用各种语言的字符串jaccard相似度的计算

    要计算两个文本的相似度 xff0c 现在可能大多会通过相似度模型来计算 xff0c 或者是通过embedding向量来计算 但可解释性差一些 xff0c 有些情况下 xff0c 可能直接用两个文本共同的字符数来计算更直观一些 Jaccard
  • windows下PowerShell别名使用

    个人在windows下习惯用PowerShell替代CMD作为命令行工具 如何自定义命令来提高生产力呢 xff1f linux中有alias工具 xff0c 如 span class token builtin class name ali
  • Linux

    Linux 1 计算机硬件体系 1 1冯诺依体系 由运算器 控制器 存储器 输入设备和输出设备五部门组成 顺序执行程序 计算机处理数据和指令一律用二进制表示 1 2硬件组成 存储器 随机存储内存RAM xff0c 内存 xff0c 逻辑IO
  • c++ threadpool.h

    threadpool h include lt pthread h gt include lt semaphore h gt include lt iostream gt include lt vector gt using namespa
  • java从http url下载文件的简单方法

    br br import java io File br import java net URL br br import org apache commons io FileUtils br br public class Downloa
  • idea运行Sparkstreaming读取hdfs文件遇到的问题

    先贴代码 idea中运行SparkStreaming时 xff0c 动态添加文件至指定目录下 xff0c 结果没有任务信息输出 问题原因 xff1a idea所在主机时间和hdfs集群时间不同步 代码中指定的hdfs目录为非空 启动之前已经
  • [HDU1085][HDU1028][HDU2013] 组合数学入门(母函数、递推)

    先来说一说母函数 xff0c 今天是第一次学 杭电关于母函数的PPT感觉不错 xff0c 挺适合入门看看的 什么是母函数 xff1f 对于序列a0 xff0c a1 xff0c a2 xff0c 构造一函数 xff1a G x 61 a0
  • Elasticsearch系列-Elasticsearch入门教程

    引言 Elasticsearch是著名的开源分布式搜索和数据处理平台 xff0c 是一个基于Lucene的分布式 实时 全文搜索系统 xff0c 其稳定 可靠 高可用 可大规模扩展等特性 xff0c 使得Elasticsearch的应用十分
  • Elasticsearch系列-Elasticsearch集群工作原理

    引言 ELasticsearch作为一个分布式搜索引擎 xff0c 能够出色地支持集群模式 动态水平扩容 故障转移等分布式系统特性 xff0c 这是其作为全文搜索引擎首选的重要原因 本文从零开始描述集群的配置和扩容过程 xff0c 让你对E
  • Elasticsearch系列-集群API(一)

    引言 Elasticsearch提供了大量了的Rest API用以操作Elastic search的相关功能 xff0c 提供了极大的便利 xff0c 掌握这些API是熟练地使用Elasticsearch的前提 Elastic search
  • JVM系列-CPU使用率高问题排查方法

    引言 Java程序在实际生产过程中经常遇到CPU使用率高的问题 xff0c 那么应该如何排查问题的原因呢 xff0c 本文大概描述一下排查方法 一 排查占用CPU的进程 使用top命令 xff0c 在大写打开的情况下按P键或者在大写没有打开
  • python判断list中的值是否完全一样

    对于一个python的list a span class token operator 61 span span class token punctuation span span class token number 1 span spa
  • 生产问题排查-SSLException:Unrecognized SSL message,plainetxt connection异常排查

    引言 最近在一次生产问题中遇到了SSLException Unrecognized SSL message plainetxt connection错误异常信息 xff0c 背景为调用微信api 获取相应信息的时候报错 xff0c 微信ap
  • 【云原生】本地搭建Openshift单机最小化开发环境

    文章目录 一 什么是CodeReady Container xff08 CRC xff09 xff1f 二 本地化部署CodeReady Container三 Code Ready Container的使用 公众号 xff1a MCNU云原
  • 手把手kubernetes本地化部署(含疑难杂症排查解析)

    文章目录 一 什么是Kubernetes xff1f 二 Kubernetes的基本概念PodDeploymentServiceNamespaceConfigMapSecret 三 Kuberntes单机本地部署3 1 安装minikube
  • chatGPT大规模使用kubernetes,云原生技术在AI领域也大有可为

    文章目录 一 云原生在AI领域的应用方向1 1 弹性部署1 2 自动化和可维护性1 3安全性和隔离性 二 云原生在AI领域的应用案例2 1 chatGPT全面使用云原生技术2 2 TensorFlow Serving和k8s及docker的