当前用户数据都是以“亿”为单位进行考量,传统数据库无法满足快速增长的海量数据存储需求,其计算和处理能力也大大不足。数据仓库有分布式存储与处理能力,将各种数据源整合集成到统一的数据中心,防止数据在传递过程中格式参差不齐,解决数据壁垒。常见的数据仓库产品如下:
后面的学习主要还是围绕Hadoop生态圈-hive。数据量越大,其价值力度越低,要从海量的数据中挖掘出有效信息,正是数据分析师的价值所在。