学了这么久大数据,学了好多主流大数据框架,从来没有主观意义上去深度地思考过大数据。
现在对于大数据我讲讲自己的想法。
1 大数据的产生
为什么会有大数据?
随着互联网的发展,现在大部分日常生活都通过网络变得十分便捷,吃穿住行等等的日常生活都离不开网络。使用网络就避免不了留下信息,或是你输入的信息、或是你点击一次按钮、又或是你滑动滚动条。这都是一条条数据,数据愈加庞大,进而形成了大数据这一现象。
而在公司中的大数据一般来源于日常运营的数据和用户的行为数据。
2 大数据特点
①数据量庞大:即使现在以TB,甚至PB为单位都不足以计量这庞大的数据量
②数据类型繁多:数据来源多,且数据大多是半结构化数据、非结构化数据
③数据增长速度快:对于数据的处理分析时,如果是实时处理就必须要考虑增长速度
④数据价值密度低:虽然量大,真正需要的数据占比很低
⑤数据真实:
对于以上特点,其实可以简单概括,也就是我们平常所说的5个V
3 大数据的存储
分布式存储数据,存储在多个节点上的nosql数据库,通过副本机制保证数据安全。
这里有两个概念:oltp、olap。
oltp联机事务处理:是面向传统的关系型数据库,是对数据量较小的数据进行增删改查。比如web上的一次点击、一次浏览等操作。
olap联机分析处理:面向分布式的数据仓库,是对数据量庞大的数据进行查询分析。对数据的筛选和分析,比如获取并分析web上某类数据的TopN。