Hadoop构建数据仓库实践
上QQ阅读APP看书,第一时间看更新

3.6 小结

(1)现在普遍认可的大数据是具有4V,即Volume、Velocity、Variety、Veracity特征的数据集合,用中文简单描述就是大、快、多、真。

(2)Hadoop是一个分布式系统基础架构,它包括四个基本模块:(1)Hadoop基础功能库,支持其他Hadoop模块的通用程序包。(2)HDFS,一个分布式文件系统,能够以高吞吐量访问应用的数据。(3)YARN,一个作业调度和资源管理框架。(4)MapReduce,一个基于YARN的大数据并行处理程序。

(3)Spark是另一个流行的分布式计算框架,其基本数据结构是RDD,它提供一种分布式共享内存的受限形式。可以利用RDD方便地实现迭代算法,相对于MapReduce的实现,Spark应用的延迟可以降低几个数量级。SparkRDD API支持的语言包括Java、Python、Scala和R。

(4)CAP理论指的是任何一个分布式计算系统都不能同时保证数据一致性、可用性和分区容错性。这也是传统关系型数据库难以扩展的根本原因。

(5)Hadoop生态圈中众多工具提供的功能,完全可以满足创建传统数据仓库的需要。使用Hadoop建立数据仓库不仅是必要的,而且是充分的。