Kylin 最佳实践｜爱奇艺如何处理千亿级数据

2023-11-12

1. 使用 Kylin 的缘由

爱奇艺 OLAP 服务演变

爱奇艺大数据 OLAP 服务演变的过程可以用如下架构图说明：

数据处理流程分为如下几个层级：

最下方是采集平台，收集业务的埋点和日志；
数据按时效性分为两种类型：离线类型的灌入到 HDFS，实时数据灌入到 Kafka；
往上是各种分析引擎，Hive 用于 PB 级别的离线分析，Kylin 用于每日报表，针对相对固定的维度进行分析，Impala 用户 Ad-hoc 场景，Kudu 支持实时更新和分析，Druid 针对的是实时事件流；
在这些引擎之上是统一的 SQL 引擎 -- Pilot，负责引擎和数据源的智能路由，基于此构建了 BI 分析平台，工作流平台，自定义 SQL 查询平台，实时分析平台等。

爱奇艺发展的大体时间线，2015 年前以离线分析为主，技术上是经典的 Hive + MySQL 方案，但缺点是报表查询比较慢，而且数据时效性差；2016 - 2018 年致力于将查询耗时提升至交互式级别，分为两大类：Kylin 针对固定报表，在维度比较有限的情况下，通过一个预处理，TB 级别数据延时能在秒级，而 Impala 则针对 Ad-hoc 类场景，可以查询任意明细数据；2018 年以后从离线往实时去发力，其中 Kudu 支持实时插入和更新，Druid 支持事件流场景。

Kylin 典型需求

数据分析中一个典型场景是用户行为分析，譬如用户在 APP 上进行一次点击，采集之后进行分析。下面为一个示例 SQL，分析首页过去一天的展示次数。

SELECT COUNT(1) as cnt
FROM hive_table_user_act
WHERE act_type = 'display’
AND page = 'home'
AND dt = '2020-07-18';

此类查询传统是用 Hive 表去做分析，具有如下几个特点：

维度固定：分析的模式每日变化不大；
时效不高：分析昨日（T+1）的使用情况；
交互延时：查询延时要求比较高，通常在秒级；
数据量大：每日规模百亿行的量级。

经典的技术架构如下图所示：

即撰写预计算的 SQL，通过 Spark 或 Hive 查询，将结果集存入到 MySQL，用户报表查询直接 MySQL 里面去读取。这个方案有以下几个缺点：

预处理慢
Hive/Spark 任务随着预计算 SQL 数量的增加（因维度增加），耗时会随之增加，甚至超过一天；
扩展性差
当预计算结果集大到 MySQL 单机无法存下时，Cube 自身也面临扩展性问题；
变更困难
每当分析师有新的需求，均需工程师修改预处理 SQL，排期进行开发，迭代慢且开发量大；
资源浪费
手动书写的预计算 SQL 会有较多的重复计算，通常优化的不是特别好，在资源上也是有很大的浪费。

2. Kylin 在爱奇艺的现状

Kylin 简介

为了克服 Hive + MySQL 方案的上述缺点，爱奇艺引入了 Kylin 来进行固定报表分析。Kylin 是一款基于 Hadoop 产品针对固定报表的 SQL 分析引擎，核心思想是预计算，即提前将报表分析结果（Cube）算好存入到 HBase，报表查询直接从 Cube 里读取，查询速度非常快。

以前文用户行为分析为例，爱奇艺改用 Kylin 后取得了如下效果：

预处理快
处理时间缩短至 1/10，从一天跑不完到 2.5 小时跑完；
扩展性好
一个输入量级在百亿每天的表，构建 9 维 Cube 都比较轻松；
易于调整
Kylin 在页面拖拽即可调整分析的维度和度量，无需开发；
节约成本
实测下来节省了 50% 的计算资源。

下图为当时选型的测试结果：

除了 Kylin，当时也调研了 Impala。Impala 相比 Hive 优势明显，查询延时从十几分钟缩短到 1 分钟以内，但毕竟要从原始数据开始查询，带宽等物理限制决定了查询速度的上限，相比于 Kylin 预构建的模式来说速度还是有明显差距。针对报表类交互式查询，Kylin 是更为合适的。

Kylin 在爱奇艺落地

现在，Kylin 在爱奇艺被广泛使用，已经在 20 多个业务落地，包括 BI、搜索、推荐。总计有 268 个 Cube，每天输入数据在 4 千亿行，每天构造出来的 Cube 有 3TB，Cube 总量在 800TB；查询估计一天有上万个，分析下来查询耗时 P95 < 10 秒，能够较好地满足需求。

3. Kylin 在爱奇艺的优化

业务架构影响

采用 Kylin 对业务架构也起到了积极的作用，最直接的就是业务的使用成本降低了。以推荐为例，分析各个模型的推荐效果，会采用如下图所示架构：

用户点击行为被存放于 Hive Pingback 表，而视频特征被存放于 Hive 维度表，如果要分析 3 个维度，每个维度 3 个度量，则需要对每种维度和度量的组合，撰写一个 SQL 去处理，总计 9 个预处理 SQL，Pingback 表和度量表被 JOIN 了 9 次，并且数量随着分析的增加还会继续膨胀。

而 Kylin 会将事实表和维度表处理成大宽表，后续的计算复用大宽表，从而 JOIN 的数量从 9 降低至 1，计算耗时、成本均大幅降低。此外 Kylin 还大幅降低需求变更的难度，原先增加一个维度/度量，需要改多个脚本，几天的开发量；现在只需在页面上调整，做一下测试，然后重新构建一下即可，小时内即可完成。除此之外，Kylin 还提供精确去重的功能，原先业务是自己在脚本里实现，依赖于脚本书写的好坏，Kylin 提供了一个标准、精确的实现，对业务去重的精度也有提升。

独立 HBase 集群

爱奇艺 Kylin Cube 的量级比较大，早期，我们按照社区的标准部署模式，也就是复用现有公共集群的 HBase，面临了种种挑战。

混布模式下，每一个 Hadoop 集群都有 HBase 服务，Kylin 把预处理的结果加载到本集群 HBase。这个模式有两个痛点：

稳定性差
HBase 集群上还有其他业务，若其他业务读写压力较大，Kylin 查询会受影响；反过来 Kylin 大量查询时，也会对其他业务产生影响。当有很多个 HBase 集群时，任意 HBase 不稳定都有部分 Kylin 业务受影响；
资源浪费

并非所有部署了 Hive 服务的集群都有 HBase，想在该集群使用 Kylin 还需在集群上部署 HBase 服务。

我们参考社区的建议，采用了独立 HBase 集群的部署模式。即 Kylin 还是从 Hive 集群读取数据，构建 Cube，最终结果跨集群加载到 Kylin 专用 HBase 集群。这个方案需要配置一下跨集群作业，参照社区的案例也不复杂；除了解决以上两个痛点，还有一个额外的好处，就是该方案能对独立 HBase 做针对性优化。因为 Kylin 专用 HBase 集群没有写入，而是通过 Bulkload 加载，故可针对读进行优化。如把内存绝大部分用于读缓存、读写线程池也偏向于读、采用固定分裂策略，Cube 表不存在分裂或合并。

采用独立 HBase 部署模式后效果明显。稳定性上，查询不可用时间相比于混布 HBase 降低至 25%。查询速度上，平均下来有 30% 的提升。

Kylin 服务平台

Kylin 服务平台定位是统一收集、存储各集群的信息，包括元信息、任务、查询，用于诊断和优化。

Kylin 自身也具备一定排障能力，比如通过 Web UI 查看 Cube 大小、失败任务等，但其信息是割裂的，部署几十个实例后，不可能每天打开几十个 Web 逐一分析。故此我们决定开发 Kylin 服务平台，其架构如下图所示：

基本思想是把需要的信息采集起来，统一存储，提供 API 和统一的 Web 界面，并开发智能诊断的逻辑，包括 Cube 膨胀率过大、Job 失败过多、查询变慢等等。

Cube 生命周期管理

用户平台的一个落地场景是 Cube 生命周期管理。如果不做管理，Kylin 对 HBase 的压力是很大的，包括表数量、Region 数量、超大 Cube，轻易即可压垮 HBase 集群。原先都是集群异常后，我们再手动分析 Region 来源，推动业务优化。现在通过用户平台的诊断，很容易分析出常见的不合理场景：Cube 未配置 TTL、未配置 Merge 策略、膨胀率过高、Cube 过大等等。平台也可基于历史的查询分析，判断出多久的数据不被访问，自动给出 TTL 的建议值。下图为诊断的效果图：

任务智能诊断

用户平台另一个落地是任务智能诊断。之前，业务构建任务失败后通过 Kylin Web 能看到如下图所示的失败信息，但分析师很难理解错误的含义，只能提交一个运维工单，由 Kylin 运维人员进行修复。这个过程对双方都很痛苦：分析师的错误响应很慢，而运维人员则需要处理大量的工单。

为此，我们开发了任务智能诊断模块。我们总结了 18 种常见的错误，每一种错误都给出易于理解的原因，修复意见，并附有手册详细描述。平台会采集任务的失败信息，和常见的错误进行匹配，下图是一个错误在平台上看到的效果。用户能基于诊断结果进行自助排障。

参数优化

1. Hive 构建全局字典

在 Kylin 3.0 中引入，之前版本中构建全局字典是通过一个单线程完成，往往会成为 Cube 构建的瓶颈。下图是优化后的效果，可以看到构建时间缩短至之前 1/3。

2. 高基数维度构建字典并发配置

即 Kylin 可以指定一个列是高基数维度，并指定其构建字典的并发度（kylin.engine.mr.uhc-reducer-count=5）。例如 Hive 表有 9 个维度列，其中 8 个基数小，1个基数大，则构建字典任务的 9 个 Reducer 会有一个特别慢。使用上述配置高基数维度会以 5 并发构建，有效地缩短了时间。

4. 未来展望

后续，我们计划朝以下几个方面发展：

1. 自动构建 Cube

当前落地的业务场景都是强需求，Cube 构建是业务主动来做。后续希望能够分析现有的 Hive 查询，自动发现内聚度高的表，构建 Cube 并代替掉原有的查询；

2. 集群化

当前每个业务一个实例，稍微有一些大查询就会引起性能波动。若给每个业务部署多个实例，则平时利用率又非常低。通过集群化部署的模式，每个用户都能用到全部的实例，稳定性会大幅提升；

3. 平台化

平台化也会继续深入，降低业务构建 Cube 的代价。通过平台来托管，业务无需自行管理 Cube 的构建。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kylin 最佳实践｜爱奇艺如何处理千亿级数据的相关文章

为什么我们需要在Hadoop程序中明确设置输出键/值类？

在 Hadoop 权威指南一书中有一个示例程序代码如下 JobConf conf new JobConf MaxTemperature class conf setJobName Max temperature FileInputFo
Hadoop：间隔和 JOIN

我很新Hadoop我目前正在尝试加入两个数据源其中关键是interval 说开始日期结束日期例如 input1 20091001 20091002 A 20091011 20091104 B 20080111 20091103 C
为什么Hadoop文件系统不支持随机I/O？

分布式文件系统例如 Google 文件系统和 Hadoop 不支持随机 I O 不能修改之前写入的文件只能写入和追加他们为什么要这样设计文件系统该设计有哪些重要优点 P S 我知道 Hadoop 将支持修改写入的数据但他们表示它
如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本

您好我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j
Hadoop 构建在 Windows 中失败：native.sln 中缺少 zconf.h？

我正在尝试在使用 Windows 10 家庭版的开发计算机上构建以下 hadoop 版本 hadoop 2 7 3 src 以下是我本地开发环境的详细信息 Windows 10家庭版英特尔酷睿 i5 6200U CPU 2 30GHz 内
在 Zookeeper 中创建路径的最有效方法，其中路径的根元素可能存在也可能不存在？

想象一条路径 root child1 child2 child3 想象一下在动物园管理员中可能存在其中的一部分比如 root child1 Zookeeper 中没有等效的 mkdir p 此外如果任何一个操作失败 ZooKeepe
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束

随机推荐

微服务搭建后端项目

1 搭建分析 2 开始搭建父项目父项目选SpringBoot项目如果使用的idea社区版的话那就创建maven项目导入如下依赖
索引，元素下标，Java ListIterator 中的 nextIndex() 和 next();

索引元素下标 Java ListIterator 中的 nextIndex 和 next 问题 previousIndex 输出前一个元素的下标索引 nextIndex 输出下一个元素的下标索引 public static void
使用css动画实现网易云音乐播放界面波浪动画效果

通过实现CSS实现仿网易云音乐播放界面动画效果最终的效果如下界面布局图片也是实现滚动效果的使用四个div 来标识每一帧波动的效果 div class container wrap div class container div cl
基于开路电压测量（OCV）的电量计获取锂离子（Li+）电池参数

获取li 电池参数的步骤确定满电量和空电量点提取Li 电池参数的最佳方法是创建一个尽可能与实际应用接近的环境其中包括保护电路放电曲线包括实际应用中有效电流和待机电流的典型值以及充电曲线因此需要模拟电池充电和放电过程并监控和记
地图切片的概念与原理

为什么80 的码农都做不了架构师 gt gt gt 定义地图切片采用预生成的方法存放在服务器端然后根据用户提交的不同请求把相应的地图瓦片发送给客户端的过程它是一种多分辨率层次模型从瓦片金字塔底层到顶层分辨率越来越低但表示的地
Redis实现限流的三种方式

一固定窗口所谓固定窗口限流即时间窗口的起始和结束时间是固定的在固定时间段内允许要求的请求数量访问超过则拒绝当固定时间段结束后再重新开始下一个时间段进行计数我们可以根据当前的时间以分钟为时间段每分钟都生成一个key 用来in
Elasticlunr.js 支持其他语言 V0.9.5

之前一直没有处理其他的语言的需求所以没有测试elasticlunr js对于其他的语言的支持多亏了Github的网友帮忙发现了elasticlunr js对于其他语言支持的问题昨天 elasticlunr js发布了V0 9 5版本
苹果手机各种尺寸详细表以及iPhoneX、iPhoneXS、iPhoneXR、iPhoneXSMax、iPhone 11、iPhone 12、屏幕适配

iPhone设备物理分辨率是硬件所支持的逻辑分辨率是软件可以达到的代数设备操作系统逻辑分辨率 point 物理分辨率 pixel 屏幕尺寸对角线长度缩放因子 iPhone 第一代 iPhone 2G iOS 1 320 x
Centos7 安装Hadoop3 单机版本（伪分布式版本）

环境版本 CentOS 7 JDK 8 Hadoop 3 CentOS 7 服务器设置设置静态IP 查看IP配置在 etc sysconfig network scripts 目录下的ifcfg ens33文件中 root Hadoop3
requests设置代理ip------验证代理ip是否可用

文章目录 1 代理ip设置 1 0 透明普匿高匿ip区别 1 1 代理设置格式 1 2 详细测试 1 3 报错407 2 验证ip是否可用demo 遇到不可用ip程序会停止 2 1 验证网站 2 2 代码及结果 2 2 1 http h
DataX读取Hive Orc格式表丢失数据处理记录

文章目录问题问题概述问题详细描述原因解决方法修改源码验证问题问题概述 DataX读取Hive Orc存储格式表数据丢失问题详细描述同步Hive表将数据发送到Kafka Hive表A数据总量如下 SQL select c
【能量算子】评估 EEG 中的瞬时能量：非负、频率加权能量算子（Python&Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python Matlab代码实现 1 概述文献来源瞬时能量的信号处理
用两个栈模拟实现一个队列，其最大容量是多少？

题目如何用两个栈模拟实现一个队列如果这两个堆栈的容量分别是m和n m gt n 你的方法能保证队列的最大容量是多少这里讨论的是顺序栈如果是链式栈的话完全没有必要考虑空间分析栈的特点是后进先出 LIFO 而队列的特点是先进先出
Day01人工智能学习---环境安装与配置

从今天开始自学人工智能并且每天记录学习过程与反思希望能帮助遇到和我同样难题的学习者们鄙人不才我没遇到的情况也不太会处理因为每个人电脑性能与使用情况不同如果小伙伴你遇到其他的问题可以在CSDN是多搜索看看最主要的是想督促自己每日
小白写逆波兰计算器

逆波兰计算器淮南师范学院电子工程学院夏健钧 2017 3 24 逆波兰计数法参考维基百科 include
滴滴（Tinyid）分布式ID算法(实战)

目录 Tinyid介绍 Tinyid原理 Tinyid实现 1 Http方式 2 Tinyid client客户端总结以下文章来源于公众号程序员内点事作者程序员内点事 Tinyid介绍 Tinyid是滴滴开发的一款分布式ID系统 Ti
stm32之实时时钟RTC（掉电计时保持、秒中断、闹钟中断、溢出中断）

前言 stm32系列产品普遍都有实时时钟RTC模块它提供一个掉电保持计时功能掉电后由后备供电区域供电除了提供时间和日期之外还可以设置闹钟提醒且可以在待机模式下设置闹钟唤醒系统在一些小容量中容量产品中只有一个32位的计数寄存器
C语言常见问题总结--《C专家编程》

文章目录 1 c语言的优先级规则 2 声明和定义的区别 3 指针和数组的区别 4 数组和指针可交换性的总结 1 c语言的优先级规则 A 声明从它的名字开始读取然后按照优先级顺序依次读取 B 优先级从高到低依次是 B 1 声明中被括号括起来
【数字图像处理】LeetCode与图像处理（连通域的计算）

基本概念在数字图像处理中有个连通域的概念连通区域 Connected Component 一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域 Region Blob 在图像中最小的单位是像素每个像素周围有 8 个邻接
Kylin 最佳实践｜爱奇艺如何处理千亿级数据

1 使用 Kylin 的缘由爱奇艺 OLAP 服务演变爱奇艺大数据 OLAP 服务演变的过程可以用如下架构图说明数据处理流程分为如下几个层级最下方是采集平台收集业务的埋点和日志数据按时效性分为两种类型离线类型的灌入到 HDFS

Kylin 最佳实践｜爱奇艺如何处理千亿级数据

Kylin 最佳实践｜爱奇艺如何处理千亿级数据 的相关文章

随机推荐

热门标签

Kylin 最佳实践｜爱奇艺如何处理千亿级数据的相关文章