【转载】阿里数据技术大图详解

2023-11-16

在这里插入图片描述
架构图从下往上看,从数据采集和接入为始,抽取到计算平台,通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。

基于公共数据中心在上层根据业务需求去建设消费者数据体系、企业数据体系、内容数据体系等核心数据资产,深度加工后,数据就可以发挥其价值被产品、业务所用。通过数据服务平台“OneService”提供统一数据服务。

目前在这个服务之上正在构建两个智能化平台:数据智能平台和BI平台,数据智能平台让智能服务更便捷的集成到业务流程中,BI平台则让数据分析更敏捷高效。

数据应用层,每天有上万内部员工在使用内部的数据产品。在商家端 ,“生意参谋”累计服务了超2000万商家,帮助商家做一站式经营全链路分析。“数据银行”服务了七千多家头部的品牌,帮助品牌商从流量运营升级到消费者运营。云上通过Dataphin与Quick BI核心中台产品,服务数千家大型企业和机构,其中包括央视网、蓝光地产、大润发、华硕等知名企业。

这一数据应用链路过程中的数据构建、管理、实体连接、标签萃取、立体画像、数据服务能力,可以通俗地理解成阿里数据中台的能力,整套体系包含了方法论、组织和工具。“采建管用”是贯穿了整个应用和数据走向,所谓“采”,即数据采集和同步;所谓“建”,即数据开发和构建;所谓“管”, 即数据管理;所谓“用”,即数据应用和分析。

统一采集管理

经过多年沉淀,DT具备站内流量采集、广告外投采集、爬虫采集和三方授权采集 等多种采集能力,并通过采集管理平台对采集全流程进行统一管理,有效识别作弊流量,保证数据质量和数据安全。

阿里日志平台

阿里数据平台旗下的官方流量数据采集管理平台,从Aplus和UserTrack采集端到端体系到实时计算、离线公共层建设,阿里日志平台提供全链路的流量数据解决方案以及从埋点申请、可视化埋点实施、验证、发布到监控的全生命周期管理。

UT/Aplus

目前已覆盖集团内所有APP,具有数据到达率高,性能好,稳定性高等特点,每天上传万亿条日志,已经成为阿里巴巴大数据基础设施的重要一环。

AplusX长链采集技术

阿里巴巴全双工的采集体系,一次建连,所有请求全部复用,具备多路复用、高性能、双向通讯、端到端攻防、不阻塞业务等特性。

可视化埋点

可视化埋点改变传统的代码埋点的开发模式,统一采集规范和采集技术,实现埋点配置化,降低埋点成本,保证埋点质量。

外部数据采集平台

面向全集团的爬虫采集平台,提供爬虫基础设施建设(包括IP代理池、真机、登录态)、智能接口服务、浏览器渲染、爬取策略设计、脚本开发、数据落库等全系列服务,极采平台提供外部三方数据的采购、资产管理、数据服务。

数据建设和管理

OneData:阿里大数据研发体系和工具
采集的数据经过ODS、DWD、DWS、ADS的数据分层服务进行统一模型设计和计算加工。OneData这套标准化、体系化的大数据建设体系可以帮助大数据团队高效,高质量的建设自己的数仓或数据体系,达到去除数据烟囱式重复建设、降本节能提效。

赤兔流计算平台

时代的竞争要求业务反射弧越来越短,除离线数据外,实时数据计算也是不可或缺的一环。基于Flink和OneData体系构建集团实时数据公共层和流计算开发平台,为集团和云上客户提供流计算服务。目前内部可以通过赤兔贯穿实时数据完整链路。

数据资产管理平台

全域数据建设好之后会面临两个难题:如何组织全域数据方便用户找到,以及如何管控数据,不能重复造轮子,无效的数据如何方便快捷的进行下线从而达到有效的成本管理。团队多年深耕数据资产管理平台,为用户提供多维度数据资产分析与评估,自动化、智能化的数据资产治理,全链路数据资产监管与价值追踪,全方位资产运营工具触达数据消费者,赋能中小企业客户,助力企业实现数据的资产化、管理自动化、商业智能化。

核心数据资产

全域数据资产中的核心资产建设,一直在进行。大OneID体系通过大规模图算法,清理整合多源异构数据,实现了包含个人、位置、企业三者的千亿级别实体的识别和链接,让oneID做到连接时间与空间。

OneID,OneID 是阿里数字经济体在自然人数据上全域融通后的重要资产之一,包括自然人多维度ID,核心人生标签、社会关系,形成了一套跨屏、跨域的自然人身份识别、行为追踪、关系判断系统,经过三代持续升级,已成为全域营销必不可少的资产要素。目前已覆盖了97% 以上的中国网民数据的实体识别和链接。
以“企业”为中心的账号体系OneCompany,实现千万级企业实体识别和连接,目前覆盖7000W家企业,链接1亿+工商企业,企业特征标签。为toB业务打下坚实基础。企业数据资产为核心,通过数据、服务、产品的方式,提升B类业务场景效率&效果,具有阿里特色的智能数据服务体系。
OneLocation, 基于地理位置的数据洞察,覆盖POI、人口、客流等数据的一套核心资产,实现位置数据在经济体内的全面融通,在B端提供基于位置的深度洞察和智能决策能力,提升位置相关运营效率;在C端提供全面的位置感知能力,提升用户线下体验。大家熟悉的盒马选址、团圆打拐项目就是OneLocation很好的应用CASE。

统一数据服务OneService

基于阿里计算平台,建设数据中台统一服务出口。以集团数据公共层(统一模型)提供上层应用接口依始,提供数据查询服务SmartDQ,复杂数据查询服务(承接集团全域自然人中心(OneID)、用户画像(GProfile)),实时数据推送服务Ipush 三大特色数据服务,目前已覆盖淘系、CBU、风控 、 菜鸟、钉钉、高德、飞猪、优酷、阿里妈妈等全域数据。

BI平台技术

从QuickBI 和FBI 产品中沉淀的底层技术引擎体系出发构建统一的BI平台,实现前端渲染引擎和后端分析引擎在架构和功能上的融合,提供通用的数据分析和数据可视化能力,作为基础技术底座承载QuickBI、FBI 和其他更多的数据分析产品。

数据智能平台

是数据智能的从生产、管理、服务、应用的一站式平台,核心目的是希望降低整个数据智能在业务中应用的成本,释放数据的价值。实现三大核心数据资产经济体内打通、管理统一化、服务透明化、应用智能化、价值可量化;沉淀和复用数据智能服务能力,高效赋能新零售业务,实现数据智能普惠。

数据产品

在这里插入图片描述

►小二端

行业—行业360,为集团行业小二打造的行业级决策数据智慧中枢,通过对行业分析方法进行梳理、沉淀和不断优化升级,对小二在行业问题诊断、行业运营决策支持及行业发展趋势预判等方面进行全方位的数据赋能。根据不同业务主要有行业360、猫超360、进出口360三大版本。

商家—商家360(原鹰眼),致力于为内部运营提供“运营视角的系统性一站式商家(包括集团、品牌和店铺,下同)全链路经营数据分析诊断型产品服务”。

活动—营销活动分析,为集团小二提供大促数据作战室日常实时指挥中枢,基于活动前、中、后全链路提供专业的、实时准确的数据分析产品。

流量——A+,集团统一的全域流量数据分析平台。以页面、小站、活动、APP和资源位等作为切入点,构建宏观概览数据、坑位点击分布、路径分析、成交转化、用户细分等流量数据分析闭环,帮助业务掌握流量现状、定位流量问题和提升流量转化。

通用工具—黄金策和FBI : 黄金策打通数据生产、分析和场景应用的全链路对象分析工具。提供多数据源接入、便捷对象圈选、灵活群组分析和方便系统对接的能力,核心解决帮助用户解决群组分析和数据应用两类问题,帮助构建行业对象运营解决方案。FBI是阿里生态内智能大数据可视化和分析平台,帮助各种角色快速、低成本的获取数据、自助完成数据可视化的搭建、在PC和无线端自由的使用数据;提供报表、Dashboard、电子表格、数据门户、数据产品等各种解决方案。

无线——阿里数据官,是一款面向数据用户的对话式智能数据机器人,通过自然语言交互方式提供智能问答、关联推荐、订阅推送、预警归因等功能。旨在帮助用户方便快捷查找数据、简单直观地解读数据、智能深入地挖掘数据,实现人人都有自己的专属分析师,提高数据查询与分析的效率。►商家端

生意参谋: 生意参谋是阿里官方打造的全渠道、全链路、一站式数据平台,致力于为用户提供经营分析、市场洞察、客群洞察等多样化数据服务,帮助用户全面提升商业决策效率。

数据银行:帮助商家管理在阿里数字经济体内的消费者资产的平台。帮助品牌沉淀消费者和品牌的关系,进行度量并持续催化,放大品牌投入的价值,赋能品牌从流量运营升级到消费者运营。

►云上

Quick BI 专为云上用户量身打造的新一代智能BI服务平台;作为基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台,无缝集成云上多种数据源,拖拽式操作、强大的数据建模、丰富的可视化图表、快速搭建数据门户,灵活的嵌入第三方系统。

Dataphin,以OneData、OneID、OneService为方法论的智能大数据平台,一站式满足用户从数据接入到数据消费全链路的智能数据构建与管理的需求,助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系。

∞媒体端

2013年的数据大屏,让媒体、消费者与阿里巴巴第一次在数据层面实现了信息对称,从那以后,数据大屏就成为双11媒体发布不可或缺的一部分。2018年在双11十周年之际,阿里数据团队用最新的可视化与交互手法,诠释了阿里经济体传递的商业与人文的大融合~

数据安全—为数据应用保驾护航

用户对数据安全与隐私保护的重视程度已经变得越来越高;Facebook等企业数据泄露事件的发生、《网络安全法》的发布、欧洲《通用数据保护条例》(General Data Protection Regulation,简称GDPR)的施行,也让各大公司在使用用户数据时,更加注意用户数据的隐私保护。

DT以合规,安全需求为出发点,紧贴业务研究并落地数据安全技术。如差分隐私/本地差分隐私解决数据分析过程中可能出现的个人隐私数据泄露问题;保序脱敏解决公域数据发布、共享中的安全数据脱敏问题;安全多方计算、可信执行环境等数据安全技术,解决多方数据融合场景下可能的数据泄露问题……

差分隐私

Althena数据安全服务平台式数据银行团队基于内部产品矩阵(御膳房大数据开放平台、策略中心、数据银行、数据工厂等)的数据开放业务场景,针对各场景中的安全问题进行一系列理论技术工程研究实践,沉淀出一整套数据安全服务来满足数据查询、数据发布、数据分析过程中的隐私保护,主要覆盖阿里的业务数据(行业及品牌类目相关数据)、客户的个体隐私数据相关保护。数据安全服务平台目前已经接入到集团数据安全服务中。安全服务平台内置人群脱敏、保序脱敏、差分隐私等数据安全服务。

保序脱敏

针对公域数据指数化函数不统一、安全性难以评估等问题。基于密码学保序加密算法的思想,设计并实现多种保序加密/保序脱敏指数化函数,通过配置输入/输出范围、密钥,实现数据脱敏功能的同时,保证脱敏结果的顺序与脱敏前结果的顺序相同,使得脱敏结果仍然具有一定的可比较性。

本地差分隐私

在数据银行的标签上传场景中,用户可以上传自己的数据,通过数据银行进行透视分析。在此过程中,需要针对上传标签实施个体隐私保护。在数据银行中使用了本地差分隐私来解决个人隐私保护问题。

通过本地差分隐私,数据银行可以更安全地支持用户将自己的私有数据和线上数据进行融合分析,更好地帮助品牌商对用户和品牌进行精细化运营,同时平衡了业务和安全之间的需求。在未来新零售战场中可能会出现更多的数据采集和数据融合场景,本地差分隐私可能会进一步在这些场景下得到应用。

总结

数据来自业务,经过阿里数据体系的锤炼最终反哺业务,如此循环往复。未来,通过数据智能的普惠,将会进一步释放数据价值!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【转载】阿里数据技术大图详解 的相关文章

  • 达尔文商品体系

    一 背景介绍 最初是由天猫发起的 针对天猫品牌混乱 原始商品信息错误和商家重复铺货 商家的宝贝 库存价格等信息杂乱无章 商家发布商品流程冗长 管理商品非常不便 消费者也很难找到确定的商品相关信息 前台的搜索应用困难等问题 旨在规范商品信息确
  • 批量爬虫采集大数据的技巧和策略分享

    作为一名专业的爬虫程序员 今天主要要和大家分享一些技巧和策略 帮助你在批量爬虫采集大数据时更高效 更顺利 批量爬虫采集大数据可能会遇到一些挑战 但只要我们掌握一些技巧 制定一些有效的策略 我们就能在数据采集的道路上一帆风顺 1 设立合理的请

随机推荐

  • 服务器虚拟机无法连接msk,无法连接mks【图文详解】

    喜欢使用电脑的小伙伴们一般都会遇到win7系统无法连接mks的问题 突然遇到win7系统无法连接mks的问题就不知道该怎么办了 其实win7系统无法连接mks的解决方法非常简单 按照1 首先检查了下 windows的防火墙设置 可以看到Vm
  • QT笔记——QProcess学习

    我们常常想通过某一个类 来启动一个外部进程 本文将讲解如何通过QProcess来进行启动外部进程 一 了解QProcess QProcess是Qt框架提供的一个类 用于在应用程序中执行外部进程 它提供了一系列函数来启动 控制和与外部进程进行
  • axios请求超时

    axios请求超时 设置重新请求的完美解决方法 自从使用Vue2之后 就使用官方推荐的axios的插件来调用API 在使用过程中 如果服务器或者网络不稳定掉包了 你们该如何处理呢 下面我给你们分享一下我的经历 具体原因 最近公司在做一个项目
  • Spring Cloud Gateway学习

    文章大纲 为什么需要网关 传统的单体架构只有一个服务开放给客户端调用 但是在微服务架构体系中是将一个系统拆分成多个微服务 那么作为客户端如何去调用这些微服务呢 如果没有网关的存在 就只能在本地记录每个微服务的调用地址 无网关的微服务架构存在
  • C++之MFC学习

    问题1 stdafx h是怎么引入进来的 define h与stdafx h之间的关系 为什么在MuisicPlayer cpp中引入stdafx h 问题2 enum class的使用 问题3 列表初始化 int window trans
  • linux重做系统分区,搜索所有硬盘分区上的linux系统,重新安装grub的方法

    电脑硬盘上 非vmware 安装了Ubuntu Fedora Debian openSUSE linuxMint Mageia elementaryOS PearOS ZorinOS Bodhi Manjaro Sparky linuxDe
  • 【星球精选】如何高效构建 Roam 与 theBrain 间细粒度双向链接?

    Roam Research 作为卡片盒很好用 只是目前缺乏中观网络可视化能力 老牌知识管理应用TheBrian 可以很好补充上这个短板 因此我希望将二者结合起来使用 只是这个过程 有些曲折 在 Obsidian 中的 excalibrain
  • redis可视工具AnotherRedisDesktopManager的使用

    redis可视工具AnotherRedisDesktopManager的使用 系列文章 macm1安装redis过程 springboot整合redis及set map list key value和实体类操作 redis可视工具Anoth
  • 龙书11_chapter_6 一:一般绘制流程

    先看BoxDemo的前几节 1 vertex input Layout 2 vertexBuffer 3 IndexBuffer 4 vertexShader 5 constant Buffer 6 pixelShader 7 render
  • Hbase存储及元数据meta

    Hbase的列族式存储 列族就是多个数据列的组合 列族式可以说是表的schema的一部分 而列不是 Hbase可以说是列簇数据库 在创建表的时候要指定列族 而不需要指定具体的列 Hbase Table组成 Table rowkey fami
  • Sqli-labs之Less-25和Less-25a

    Less 25 GET 基于错误 您所有的OR AND都属于我们 字符串单引号 Notice Undefined variable hint in C phpStudy WWW sqli Less 25 index php on line
  • Android自动化测试框架实现

    背景介绍 最近打算梳理一下不同产品领域的自动化测试实现方案 如 Android终端 Web 服务端 智能硬件等 就先从Android终端产品开始梳理吧 本文主要介绍UI自动化测试的实现 因为这类测试解决方案比较通用 Android系统层 内
  • CentOS 7下安装nginx+php+mysql

    目录 一 安装Nginx 1 安装make 2 安装g 3 安装PCRE库 4 安装zlib库 5 安装ssl 6 下载和解压nginx 7 添加nginx用户和用户组 8 配置nginx安装参数 9 编译并且安装nginx 10 启动ng
  • Windows下的mingw-Qt开发环境安装及helloworld实现

    Windows下的mingw Qt开发环境安装及helloworld实现 我用的是Qt5 7 因此本次总结是基于Qt5 7 0的 我在自学的时候使用的IDE是Qt自带的Qt creator 上手简单 配置属于自己顺手的设置很方便 此外 如果
  • element主题色切换

    在网上搜了很多主题切换方案 发现没有适合自己项目的 不得已结合根据实际情况做一个子主题切换的功能 其中参考了element 官方的theme chalk preview 感兴趣的可以自己研究一下 主要功能是基于less切换主题色 可以自定义
  • 网络安全工程师需要学什么?零基础怎么从入门到精通,看这一篇就够了

    网络安全工程师需要学什么 零基础怎么从入门到精通 看这一篇就够了 我发现关于网络安全的学习路线网上有非常多看似高大上却无任何参考意义的回答 大多数的路线都是给了一个大概的框架 告诉你那些东西要考 以及建议了一个学习顺序 但是这对于小白来说是
  • 计算机退出程序的四种方法,退出windows10系统账户的四种方法

    网友反馈说Win10系统打开某些程序时 经常会弹出提示 你要允许以下程序对此计算机进行更改吗 每回都要手动关闭 而且频繁的弹出影响办公效率 有什么办法能将此窗口给永久关闭 退出微软账户即可 接下去看下具体操作方法 退出Win10账户的方法
  • 同步与异步的区别(一看则懂)

    前端面试经常被问 同步与异步的区别是什么 答案呢 大家都知道 只是在于你怎么表达 这种问题也不是很复杂 建议在回答的时候最好结合自己的实际项目开发以及自己的理解来回答 这样的效果会比较好 面试上提的问题本来目的就是想考察你是否熟悉 是否有用
  • TSN协议之冗余协议——IEEE 802.1 CB

    在车载通信领域 我们时常面临一个困惑 要是通信线路异常断开了怎么办 这里的异常断开不仅指物理上的断开 也可能是受电磁干扰等导致线路通信功能的异常等 解决此类问题 一个显而易见的解决方案就是增加冗余路径 即把数据传输2 N份以进行备份 这样就
  • 【转载】阿里数据技术大图详解

    架构图从下往上看 从数据采集和接入为始 抽取到计算平台 通过OneData体系 以 业务板块 分析维度 为架构去构建 公共数据中心 基于公共数据中心在上层根据业务需求去建设消费者数据体系 企业数据体系 内容数据体系等核心数据资产 深度加工后