十年一剑,阿里推荐与搜索引擎平台AI·OS首次公开!

2023-05-16

640?wx_fmt=png

阿里妹导读:9月28日,阿里搜索迎来了十周年纪念日。久经考验的搜索与推荐平台,支撑了淘宝、天猫、优酷乃至海外电商在内整个阿里集团的推荐与搜索的业务,引导成交占据了集团GMV的绝大部分份额。随着智能化时代到来,已经发展为大数据深度学习的在线服务体系,在保持原有的全链路10秒级更新延迟的引擎平台之上,拓展支持各种深度学习网络预测的灵活拆分,支持超TB的模型,驱动异构计算、实时计算以及深度学习训练平台发展,不断追求效率的极致。


今天,五福老师将带领大家走进AI·OS(大数据深度学习在线服务体系)的十年基业里,看看工程如何与数据和算法一起驱动商业创新。


640?wx_fmt=jpeg


作者简介:五福,搜索&推荐工程技术负责人,阿里巴巴高级研究员,十年间带领搜索与推荐工程团队从追求极致效率入手,走向集团统一的引擎中台,实现了到智能化时代的升级,建立了世界领先的大数据深度学习的在线服务体系 AI·OS (Online Serving)。


640?wx_fmt=png


AI·OS(Online Serving),大数据深度学习在线服务体系,由阿里巴巴工程、算法、效率的同事们砥砺十年而成,支撑起海内外阿里电商全部的搜索和推荐业务,时刻置身大数据主战场,引导成交占据集团大盘主体;此外,作为中台技术中坚,AI·OS已是包括电商、阿里云、优酷、菜鸟、盒马、钉钉等等在内全集团的基础设施;更为重要的是,AI·OS体系的云产品矩阵服务于全球开发者,今年预期在数千万级的营收规模。


AI·OS聚焦于深度学习的在线服务,其组件Jarvis甚至已经运行于手机上,但从功能角度来看,在体系中处于关键地位的有5个服务组件:TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎、iGraph图查询引擎。AI·OS上的主要的算法场景,比如手淘的搜索、猜你喜欢、AIO以及海神等,都以图化(算子流程图定制)的模式对组件快速组合与部署并承担实验流量,让在线服务不拖模型训练的后腿随训随上,这是我们对迭代效率的最高水平的新演绎。


AI·OS这些关键服务组件能够幻化异彩纷呈的算法场景和技术产品,绝非机械组合可成。引擎图化的基础,尤其是对组件快速组合与部署并接流的能力,得益于我们对大数据在线服务的通用抽象(要求具备秒级数据更新的最终一致性),它就是Suez在线服务框架。Suez框架统一了3个维度的工作:


  • 索引存储(全文检索、图检索、深度学习模型)

  • 索引管理(全量、增量以及实时更新)

  • 服务管理(最终一致性、切流降级扩缩容等)


每一个服务组件比如iGraph,孤立地做好这几个维度至少要3年时间,哪怕是共享大部分代码,而做好它们只是一个在线服务的基本前提,毕竟我们都知道频繁的业务迭代一定是发生在图的计算层面。近日回顾,将iGraph迁移到Suez框架上,出于对使命的认同团队精锐尽出不计投入,使得AI·OS可以合围而成。


AI·OS体系里Hippo承担着集群物理资源的调度任务,这里是中台容器和隔离技术与搜索工程交汇之地,更是模型训练PAI-TF与实时计算Blink通过AOP成为体系友员的桥头堡。今天推荐与搜索的训练任务都运行在Hippo混部资源池上,算法鼎盛时期我见证过最大2千台、七天均值1300台百核机器满负荷运转,这些资源是免费获得的,而这些作业创造的价值大到无法估量。


640?wx_fmt=jpeg


AI·OS自身也是预测与优化算法的用武之地,其中AIOps更是集大成者,在metrics服务KMon解决了秒级实时可靠性之后,在TPP成功推升ajdk的负载极限之后,在广大无状态服务组件弹性扩缩成功之后,AIOps终于可以再迈进一步推动Hippo池内大部分引擎服务组件执行弹性策略,双11当日力争摸高50%的负载峰值。弹性扩缩据我们所知在大数据在线服务领域是开拓性的工作。


AI·OS得以自成体系完成算法迭代闭环,离不开嵌于手淘皇冠上的搜荐服务端和客户端两颗明珠,这里是算法工程产品融合亦是相关各方博弈的主场,高效的产品迭代和完善的实验机制配合支持体系不断实现众望所归的开疆辟土。近年来端上智能的探索逐步明晰,助力拍立淘突破数千万UV,技术上反哺手淘也给AI·OS体系带来新的发展空间。


AI·OS深入骨髓的产品化理念支撑我们自居中台技术中坚,TPP、TisPlus以及OpenSearch这些精准定位的推荐与搜索中台产品成就众多事业部的大数据场景和基础检索服务。国际化大潮中,AI·OS体系化部署无需定制开发,技术中台优势独显。索引更新链路的设计欠缺造成负面影响,鞭策我们的同时侧面也佐证AI·OS的基础地位。


云上拓展不仅是机遇更是AI·OS产品化的使命和终极归宿,一批早期的引擎开发者富有远见志同道合殊途同归勇于开拓,如今OpenSearch和ES(基于AI·OS体系的基础设施)已经全球部署成长为两款千万级的搜索产品,而名为AIRec的智能推荐产品即将问世,明年我们的公有云大数据产品矩阵有望营收有新突破。


总结一下,AI·OS体系的基石是Hippo它为体系划定了资源的刚性边界,资源为在线服务发展所必须,凡支持混部在资源角度能形成双赢的即为体系友员(比如PAI-TF),目前我们也在不断拓展Hippo边界即将与Yarn合体甚至合池;往上的Suez是体系里大数据在线服务的基础框架,支持Suez即为体系成员,除运维成本大幅降低外还很自然的参与AIOps弹性扩缩进一步提升系统效率;进而再具备图化能力即成为深度学习在线服务体系的核心成员,可以在业务场景里任意驰骋,未来我们寄望于全图化引擎与离线高效对接大幅提升算法迭代效率。


从Hippo到Suez(iGraph)再到图化引擎(RTP、HA3、DII),再延伸到手淘搜荐服务端与客户端,乃至其上的AIOps和几大技术产品TPP、TisPlus、OpenSearch,其核心线索是优化算法迭代效率,这乃是AI·OS体系的精髓所在。从今天AI·OS达到的境界而言,我在所知范围内还没有见到同行到达过。

 

640?wx_fmt=jpeg


AI·OS与算法


直白地讲,面对大数据业务挑战, AI·OS至多能起到30%的作用,随后是算法解决30%+,其余的靠产品和机缘,只不过AI·OS的30%是个前提条件,这容易被忽视,在早期淘宝搜索,不久前的手淘推荐在上演。很难想象有另外的技术领域会像这两个领域一样乐于相互成就,对彼此同事的职级、规模和疆域的成长感受到的只有羡慕。我们需要永远铭记,AI·OS发展的核心线索是优化算法迭代效率。

 

AI·OS与Blink


Blink孵化自早期的AI·OS体内,今天已蓬勃发展为通用实时计算引擎,不过二者间关系永远的凝结于实时二字之上:AI·OS体系的引擎服务都要求具备秒级数据更新的最终一致性,而Blink在AI·OS的场景之外再难寻觅真正的技术挑战。这就很容易解释为什么Blink团队珍视AOP,而AI·OS狂热地推动Blink上混部,甚至落地Hippo与Yarn合体合池。AI·OS与Blink的互补特性,仅次于AI·OS与算法。

 

AI·OS与PAI


稍早时PAI希望独立发挥作用却总不能得门而入,原因是忽视了AI·OS体系尤其是Hippo的混部资源池的刚性诉求,尽管大家都认同PAI在Blink和AI·OS之间有很大的发挥空间。所幸三方的开放心胸最终达成分工默契,放弃自己的资源池后,PAI-TF成功地撑起了搜索和推荐算法全部的模型训练任务,而且也支持了AI·OS的图化执行引擎。展望未来PAI-TF可以在AI·OS发展的核心线索上发挥更大作用。


对比Blink和PAI,梳理一下AI·OS的发展脉络,不难发现规律:AI·OS首先服务于集团头部客户发展基础体系,然后具备产品化能力服务于集团内中长尾,最后再完善产品化成为云上服务。Blink诞生于AI·OS优化实时计算效率服务好了头部客户,然后发展SQL走产品化的路服务好中长尾集团内得以统一,现在也在云上大力发展。而PAI之前只能服务集团内中长尾,反观几家头部客户均有自己的训练平台,这绝非任性,主因是当时PAI并不足以支撑头部客户迭代需求。而今天PAI-TF做出改变兼容AI·OS体系,格局会本质改观,彻底落地的PAI将会同时具备头部和中长尾的服务能力,集团内统一深度学习的训练平台将会水到渠成。

 

AI·OS与图计算


图计算在计算引擎学界引领热潮,在离线场景(包含迭代计算)有丰富的论作,向在线服务领域拓展寻求更快速的验证在所必然,但在互联网大数据技术业界鲜有堪称经典的对标实现,是因为业界技术能力不够吗?学界热潮容易理解,图论本是经典倾倒无数英雄,而业界缺乏对标更刺激学界投入。只不过业界见到的多数大数据业务场景完整抽象后并非经典的图计算问题,比如AI·OS对此的抽象是算子流程图快速定制,这至多算是一个泛化的图计算模型。不过在AI·OS体系之上的局部,经典的图计算技术的确大有空间,iGraph乃至整个体系准备好随时被颠覆,不过颠覆之前,需要摸透具备秒级数据更新的最终一致性的在线服务的特点,从Hippo到Suez的能力要素都要逐步具备。是融入体系在iGraph或Suez上快速落地,还是像PAI一样兼容于体系,还是独立于AI·OS体系之外从头开始,选择决定成败。


640?wx_fmt=jpeg


OLAP与图计算相似,走向在线也将面临类似的选择。对于这类具备面向最终一致性的在线服务,独立于AI·OS建设,还意味着要开辟独立资源池,因而也更加需要提供足够独特的价值,这方面我还没有看的很清楚。最后一个和AI·OS关系密切的技术方向是OLTP,因此在数据更新的一致性上要求更高,AI·OS不会妄自涉足。


需要指出的是,集团内外流行的Graph Embedding从在线服务角度来看,和图计算无关,这个技术叫向量召回,是图像检索的泛化应用,该技术集团内实现以达摩院机器智能实验室最为突出(拍立淘核心技术之一),这部分已是AI·OS体系能力的一部分。


对于AI·OS,你有哪些期待和寄语?

欢迎在留言区分享,阿里妹将选出最用心的五位童鞋,送出阿里搜索10周年纪念公仔哦。

截止日期:10月8日



640?wx_fmt=gif

你可能还喜欢

点击下方图片即可阅读


640?wx_fmt=jpeg

达摩院一年香,阿里CTO张建锋公布了哪些成果?


640?wx_fmt=jpeg

关注「阿里技术」

把握前沿技术脉搏

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

十年一剑,阿里推荐与搜索引擎平台AI·OS首次公开! 的相关文章

  • Pipeline Groovy 语法

    Groovy是一种功能强大 xff0c 可选类型和动态 语言 xff0c 支持Java平台 旨在提高开发人员的生产力得益于简洁 xff0c 熟悉且简单易学的语法 可以与任何Java程序顺利集成 xff0c 并立即为您的应用程序提供强大的功能
  • Jenkins 共享库应用

    1 创建一个共享库 1 xff09 创建共享库 可以直接在github中创建一个公开类型的仓库 xff0c 也可以创建私有类型的gitlab仓库 xff0c 需要提前配置好仓库的认证凭据 xff0c 这里使用gitlab创建了一个名为jen
  • Generic WebHookTrigger 自动触发

    1 安装配置 Generic WebHookTrigger 目的 xff1a 为Jenkins作业添加触发器 xff0c 便于其他系统调用 安装配置Generic WebHook xff0c 插件名称 xff1a Generic Webho
  • Jenkins 权限管理与凭据

    权限管理 安装插件 Role Based Strategy 可以对Jenkins用户进行权限管理 xff0c 如果在Jenkins控制台安装插件失败 xff0c 可以去Jenkins官网下载插件然后再上传 Role based Author
  • 部署Maven环境

    JDK xff1a 在maven3 3 以上的版本需要JDK版本1 7 43 xff0c 内存 xff1a 没有最低限制 磁盘 xff1a 1G 43 可用磁盘空间 操作系统 xff1a 没有限制 下载地址 xff1a Maven Down
  • Maven 集成

    先在执行节点上安装Maven xff1a 部署Maven环境 lovely nn的博客 CSDN博客 JDK xff1a 在maven3 3 以上的版本需要JDK版本1 7 43 xff0c 内存 xff1a 没有最低限制 磁盘 xff1a
  • 哪些技术好书值得一读再读?阿里大牛列了一份经典书单

    喜爱读书 xff0c 就等于把生活中寂寞无聊的时光换成巨大享受的时刻 有了书 xff0c 各个领域的智慧 xff0c 几乎触手可及 我们能有幸站在前辈 巨人的肩膀上 xff0c 看更远的风景 4月23日世界读书日 xff0c 阿里九位技术大
  • JDK 环境部署

    环境Centos 7 6 卸载旧的 查看旧的java版本 java version 查看jdk信息 rpm qa grep i jdk 卸载jdk rpm e nodeps jdk信息 安装新的 rpm安装1jdk rpm ivh jdk
  • Docker部署Gitlab

    这里用docker部署gitlab ce 14 0 0 ce 0版本 xff1a docker pull gitlab gitlab ce 14 0 0 ce 0 mkdir p gitlab1 config data logs docke
  • Pipeline 部署K8S应用

    概述 提前在K8S集群中部署jenkins和gitlab应用 xff0c gitlab用于存放应K8S的资源清单Yaml文件 xff0c Jenkins用于拉取gitlab上的Yaml文件并将其部署到K8S集群中 将所有Yaml文件放在Gi
  • curl https方式访问kubernetes集群API

    使用curl https方式访问kubernetes集群的api 认证方式需要用到token xff0c 这里使用变量赋予APISERVER 和TOKEN的值 apiserver xff1a APISERVER 61 kubectl con
  • Deployment 回滚

    更新Deployment资源时 xff0c pod状态为Pending xff0c 使用delete命令是删不掉Pending的pod的 xff0c 因为Deployment会无限创建 xff0c 这时候需要用到Deployment的回滚功
  • 在Pod中执行目录操作,提示Permission denied

    问题 xff1a 进入Pod执行创建文件的操作 xff0c 出现如下报错 kubectl exec it jenkins 5b688ddcc7 h72f2 n cicd bash touch test touch cannot touch
  • Copy宿主机文件到Docker容器中

    1 查找容器名 docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 67686c68c78c keycloak v3 34 opt keycloak bin k 3
  • K8S中部署Grafana

    官方部署文档 xff1a Deploy Grafana on Kubernetes Grafana Labs 以下Yaml从官方copy下来的并做了些修改 xff0c Service使用Nodeport方式是为了便于本地访问 cat gra
  • 在 AlertManager 报警通知中展示监控图表

    参考原文档 xff1a 在 AlertManager 报警通知中展示监控图表 Promoter 是一个用于 AlertManager 通知的 Webhooks 实现 xff0c 支持在消息通知中展示实时报警图表 xff0c 也支持定制消息通
  • Github添加SSH keys

    问题 xff1a 在本地 xff08 linux系统 xff09 下载github仓库源代码时 xff0c 执行git clone 命令时出现以下报错 xff1a git clone git 64 github com hh hub pro
  • 阿里技术大牛最爱的“闲书”,你看过多少?

    在忙碌的写代码 修bug生活里 xff0c 你有多久没有闲下来 xff0c 读读 闲书 xff0c 取悦自己了呢 xff1f 正如梁文道所说 xff0c 读一些无用的书 xff0c 做一些无用的事 xff0c 花一些无用的时间 xff0c
  • blackbox_exporter 黑盒监测

    一 简介 blackbox exporter blackbox exporter是Prometheus 官方提供的 exporter 之一 xff0c 可以提供 http dns tcp icmp 的监控数据采集 xff0c blackbo
  • Python 与Django环境搭建

    系统 xff1a Windows 10 python环境搭建 1 python安装步骤 python包下载链接 xff1a https www python org downloads windows 下载版本 xff1a python 3

随机推荐

  • prometheus图

    Prometheus Server 框架图 xff0c 只要能提供对应的metrics接口 xff0c promehteus就能接入监控 xff0c prometheus会把抓取到的指标数据持久化到本地磁盘中 xff0c 跟其它数据库一样它
  • 经典文献阅读之--BEVDistill(BEV蒸馏)

    0 简介 之前作者前段时间在研究BEV的相关算法 xff0c 当时就觉得BEV算法好是好 xff0c 但是所需要的内存以及计算资源实在是太大了 xff0c 无法实时在真实场景中运行 我们知道多视图 xff08 multi view 三维目标
  • 经典文献阅读之--FastFlowNet(轻量光流估计)

    0 简介 密集的光流估计在许多机器人视觉任务中起着关键作用 随着深度学习的到来 xff0c 已经比传统方法以令人满意的精度预测了它 然而 xff0c 当前的网络经常占用大量参数并且需要沉重的计算成本 这些缺点阻碍了在功率或内存受限的移动设备
  • Matlab与ROS(1/2)---Message(三)

    0 简介 消息是ROS中交换数据的主要容器 主题和服务使用消息在节点之间传输数据 为了标识其数据结构 xff0c 每条消息都有一个消息类型 例如 xff0c 来自激光扫描仪的传感器数据通常以sensor msgs LaserScan类型的消
  • Matlab与ROS(1/2)---发布者和订阅者数据通信(四)

    0 简介 我们在前面一节介绍了Matlab与Message的通信 xff0c 而我们这一节主要来介绍发布者和订阅者在Matlab中的操作 这部分我们主要来看一下ROS1和ROS2中分别是如何使用Topic的 1 ROS1的消息订阅与发布 1
  • Matlab与ROS(1/2)---服务端和客户端数据通信(五)

    0 简介 在前几讲我们讲了Matlab中的Message以及Topic的相关知识 而ROS主要支持的通信机制还有服务这一类 服务通过允许请求以及响应的通信方式 xff0c 来给整个系统完成更紧密的耦合 服务客户端向服务服务器发送请求消息并等
  • Matlab与ROS---Action与Gazebo(六)

    0 简介 对于ROS1而言 xff0c 其在Matlab当中相较于ROS2还有一些比较高级的用法 xff0c 比如说我们接下来要说的Action和Gazebo仿真 1 ROS Action ROS的Action行为模式当中也存在有一个客户端
  • Matlab与ROS---TF坐标系(七)

    0 简介 我们上面讲了最基础的通信机制以及在Matlab中如何使用这些通信 xff0c 下面我们这一讲来主要介绍ROS当中最常用的TF坐标系在Matlab中的使用 tf是分布式的 xff0c 因此所有的坐标帧信息对ROS网络中的每个节点都是
  • OCR如何读取皱巴巴的文件?深度学习在文档图像形变矫正的应用详解

    阿里妹导读 xff1a OCR作为智能审核的重要环节 xff0c 其识别准确率影响着最终审核效果的好坏 xff0c 而来自扫描仪 智能手机的文档图像多存在卷曲 折叠 本文旨在利用深度学习算法对文档图像的形变进行矫正 xff0c 从而提高OC
  • 经典文献阅读之--VGICP(体素化的ICP匹配)

    0 简介 之前我们在以前的文章中介绍了很多有关于点云匹配相关的知识 xff0c 最近两年处理GICP这一大一统的ICP匹配方法以外 xff0c 还有一个工作对体素化和ICP这两者打起了心思 xff0c Voxelized GICP for
  • 经典文献阅读之--Orbeez-SLAM(单目稠密点云建图)

    0 简介 对于现在的VSLAM而言 xff0c 现在越来越多的工作开始聚焦于如何将深度学习结合到VSLAM当中 xff0c 而最近的这个工作就给出了一个比较合适的方法 Orbeez SLAM A Real time Monocular Vi
  • 经典文献阅读之--NORLAB-ICP(重力约束ICP)

    0 简介 最近几年IPC相关的文章也出了不少 xff0c 最近作者有看到了一篇比较有意思的ICP论文 Gravity constrained point cloud registration xff0c 这篇论文将传统的ICP考虑了重力因素
  • 常见的3d bounding box标注工具

    0 简介 对于3d bounding box而言 xff0c 近几年随着自动驾驶的火热 xff0c 其标注工具也日渐多了起来 xff0c 本篇文章不讲具体的算法 xff0c 这里主要聚焦于这些开源的3d bounding box标注工具 x
  • 经典文献阅读之--A Lifelong Learning Approach to Mobile Robot Navigation(终生学习轨迹导航)

    0 简介 终生学习作为近年来比较火的一种深度学习方式 xff0c 导航终身学习 LLfN 旨在解决标准导航问题的一种新变体 xff0c 在该问题中 xff0c 智能体在有限的内存预算下 xff0c 通过学习提高在线经验或跨环境的导航性能 而
  • 避免使用第三方工具完成电脑环境检测

    0 简介 在之前配置各种深度学习环境的时候经常需要先检测一下电脑的软硬件环境 xff0c 其实整个过程比较重复和固定 xff0c 所以我们是否有可能一键检测Python版本 PIP版本 Conda版本 CUDA版本 电脑系统 CPU核数 C
  • 经典文献阅读之--PCAccumulation(动态三维场景构建)

    0 简介 多波束激光雷达传感器 xff0c 常用于自动驾驶汽车和移动机器人 xff0c 获取三维范围扫描序列 xff08 帧 xff09 由于角度扫描分辨率有限和遮挡 xff0c 每帧只稀疏地覆盖场景 稀疏性限制了下游过程的性能 xff0c
  • Linux中的算法分离手段

    0 简介 参数分离对于绝大多数算法开发来说收益是非常大的 xff0c 因为我们都知道 xff0c 随着平台的更替 xff0c 很多时候如果说数据流和算法交叠在一起 xff08 即接口与实现合在一起 xff09 这将有可能会导致在迁移平台时候
  • 经典文献阅读之--Evaluation of Lidar-based 3D SLAM algorithms (激光SLAM性能比较)

    0 简介 我们在日常使用激光SLAM算法的时候 xff0c 常常会发现现有的算法只会和一些比较经典或者前作去进行比较 xff0c 很多时候我们更希望对主流的激光SLAM方法进行性能比较 之前作者转载过一篇文章 常见不同3D激光SLAM方案对
  • 经典文献阅读之--Bidirectional Camera-LiDAR Fusion(Camera-LiDAR双向融合新范式)

    0 简介 对于激光雷达和视觉摄像头而言 xff0c 两者之间的多模态融合都是非常重要的 xff0c 而本文 Learning Optical Flow and Scene Flow with Bidirectional Camera LiD
  • 十年一剑,阿里推荐与搜索引擎平台AI·OS首次公开!

    阿里妹导读 xff1a 9月28日 xff0c 阿里搜索迎来了十周年纪念日 久经考验的搜索与推荐平台 xff0c 支撑了淘宝 天猫 优酷乃至海外电商在内整个阿里集团的推荐与搜索的业务 xff0c 引导成交占据了集团GMV的绝大部分份额 随着