自己动手做大数据系统(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 大数据系统的安装及配置

2.1 服务器及操作系统的准备

大数据的数据最终存在的物理设备是计算机,计算机的核心包括计算设备(如CPU/中央处理器)、存储设备(如内存、硬盘)及网络设备(如网卡)等。与我们自己常用的计算机相比,组件配置比较高,并且需要不停机地对外提供服务的计算机被称为服务器,其主要面向企业用户。

而调动管理服务器硬件设备的系统被称为操作系统。在操作系统中,最早的UNIX是针对特定硬件来提供服务的操作系统。它属于商用系统,有昂贵的使用费用,主要面向服务器使用。

Windows操作系统借鉴了UNIX操作系统的长处,并将独立的DOS和Windows NT技术整合起来,形成了方便易用的操作化界面,其主要市场是个人计算机用户。同样,苹果公司的OS X也是源于UNIX且添加了一些类库而形成的基于苹果计算机设备的操作系统,其同样面向个人计算机用户。

而基于UNIX发展起来且开源、免费的Linux操作系统则拥有目前服务器市场中最大的用户群体。据Linux基金会的研究,86%的企业已经使用Linux操作系统进行了云计算、大数据平台的构建。

这里只是概述一些简单、实用的操作系统知识,以使初学者对其有一个大体的了解。已熟悉Linux或UNIX的读者可跳过本节。

常用的Linux及UNIX版本说明如表2-1所示。

表2-1 Linux及UNIX的版本说明

img

续表

img

编写脚本的语言有shell、Perl、Python等。在大多数操作系统上,默认的shell都是bash(即Bourne Again shell),但在几种UNIX上也用sh(Bourne shell)和ksh(Korn shell)。各种操作系统上都有shell。用shell编写的脚步可移植性好,除了其调用的命令外,需要依赖的东西不多。但如果要实现一些较复杂或高端的脚本,建议采用Perl或Python等。