4.5 小结
(1)除了开源的Apache Hadoop以外,还有Cloudera、HortonWorks、MapR三个主流的商业Hadoop发行版本。CDH的优点在于提供了包含大量工具和特性的用户友好界面,缺点是性能不够好,速度较慢。HDP的优势在于它是唯一支持Windows平台的Hadoop版本,劣势是它的Ambari管理界面过于简单,没有提供丰富的特性。MapRHadoop优点是速度快,没有单点故障,缺点是没有好的用户界面控制台。
(2)手工安装Apache Hadoop的主要步骤包括:准备集群节点主机,安装Linux操作系统,配置好IP、主机名,做好集群角色(master、slave)规划;建立运行Hadoop集群的Linux用户;在hosts中添加域名解析;安装兼容版本的JDK;配置SSH免密码;编辑主要的Hadoop配置文件,设置参数;设置环境变量;HDFS初始化;启动HDFS和YARN。
(3)为了解决NameNode的单点问题和扩展的局限性,在Hadoop-0.23.0版本新增了HDFS Federation功能。Federation使用了多个独立的NameNode及命名空间,这些NameNode之间是彼此分离的。也就是说,它们之间相互独立且不需要互相协调,各自分工,管理自己的区域。
(4)使用Cloudera Manager,能够图形化安装和部署CDH,极大简化了集群的管理和维护工作。有三种方式安装CDH:通过Cloudera Manager自动安装;使用Cloudera Manager Parcels或Packages安装;使用Cloudera Manager Tarballs手工安装。
(5)Cloudera Manager许可证有Cloudera Express、Cloudera Enterprise数据集线器60天试用版和Cloudera Enterprise三种。Cloudera Enterprise提供了一些高级特性和功能,其许可证需要购买。60天试用期满或者在试用到期前手工结束试用后,试用企业版自动变更为Express,此时除了企业版特性,其他Cloudera Manager的基本功能的使用不受任何影响。