先说结论:
数据仓库实行分而治之,面向BI(商业智能);
数据中台实行一统天下,面向DateAPI(数据服务API);
数据湖实行无为而治,面向AI(人工智能)。
他们三个实行的策略不同,用途不同。但是数据中台可以包容数据仓库与数据湖,数据湖与数据仓库是并存的。
接着我从为什么建立他(目的),建立他需要什么(成本),可以带来什么(收益)三方面来讨论。
数据仓库
- 目的
实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。也就是数据仓库主要用于为公司决策者提供决策支持,当然也可以为生产环境存储数据。
- 成本
硬性成本较低,软性成本较高。需要一个团队分别去对接业务,打通孤岛,维度建模等等。做出来很简单,哪怕一个初高级数据仓库工程师也可以完成,但是如何让仓库用的方便快捷,适应公司发展就需要投入大量成本。
- 收益
消灭公司数据孤岛,让决策层可以随意调用公司数据,可以为公司战略提供数据支持。让业务部门便捷的获得数据,大大提高了业务部门的战斗力。
数据中台
- 目的
盘活公司的数据,标志着转型为DT时代企业,可对外提供数据服务,降低冗余,降低成本,为公司未来智能化打下铺垫。
- 成本
成本极高,目前国内有中台建设经验的团队也没有多少,而且中台不是适应所有的公司,只为了建设中台而建设中台只有两种结果:建设了一个四不像与死亡。张勇也说过:“如果一个企业奔着中台做中台,就是死。”
适合自己的才是最好的,强求不得。
- 收益
中台的建设完成就相当于给公司加了一个最起码三倍"大龙的buff",极大的降低公司开发周期(减CD),数据共通更极大的增强了公司的健壮性(加HP最大值),而且对同行竞争对手有压制作用(范围属性压制),因为降低了冗余可以保证公司的输出能力(加MP最大值)等等。
数据湖
-
目的
实现数据的集中化管理,加强公司深度学习,数据挖掘能力,优化运营模型。
-
成本
建立数据湖的可能性与建立数据沼泽的可能性的比例大概是1:10。数据湖对于数据湖总架构师与数据科学家有极高的要求,两者缺一不可。
要不然建设出来的数据湖就会是沼泽,没有一点用而且恶臭无比。
-
收益
因为数据湖的集中化管理,第一必然是数据治理,其次是深度学习与数据挖掘的发展会让公司孕育出预测分析、信息追踪、推荐引擎甚至是真正的商业模型。