一、数据仓库要不要分层?
数据仓库既然是数据存储计算的地方,那么为什么需要分层呢?同样也是数据规模,业务场景决定。可以说很多公司数据仓库建设刚起步时,大部分的数据都是经过粗暴的数据接入,进行ETL后就直接对接业务,生成报表或者导入业务系统直接使用。
后来随着公司业务的发展,数据的沉淀,数据仓库发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得。造成各种重复计算(可能两张表只差了几个字段,但每个人都跑了一次),严重浪费了计算资源和存储资源,企业负担成本极大。这个时候大家就要想着如何规范化存储和计算了,如何最大化降低企业成本。尤其数据规模越大的公司,需求越强烈。
当然你公司数据规模小,非不分层可不可以,当然可以。也没必要搞那么规范,规范的不好之处就是要付出很大的人力成本去实施规范,监督规范的实施。最终的选择要结合你们企业的成本去考量,一切都要结合实际。
二、数仓分层的好处
1、清晰数据结构:
每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
2、数据血缘追踪:
简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
3、减少重复开发:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)