导语——数据之大
大数据这个概念已经家喻户晓,数据管理系统的研发也得到了很多互联网公司的重视。新的数据管理系统层出不穷,那么数据管理系统的过去、现在和将来是什么样子的呢?
大数据技术逐渐被各行各业广泛应用。大数据技术的兴起是在2000年左右,Google发表了被誉为“三驾马车”的论文,引起学术界的广泛讨论,大数据技术逐渐在工业界广泛应用,后来从计算机领域逐渐扩展到了其他领域。这有点儿像近年来备受热议的区块链,在中本聪发表比特币“白皮书”之后,区块链也逐渐渗透到各行各业,似乎不懂区块链就是落后的标志,就像那时的大数据。
大数据的兴起貌似抢了数据库的风头,但实际上数据库的历史远比大数据久远。相对来说,数据库是一个学习门槛比较高的技术领域,而大数据却“雅俗共赏”。同样作为数据管理系统,大数据和数据库有什么联系和区别呢?现在看来,大数据与数据库的界限越来越模糊。因此,本书从一个更宏观的角度,即数据管理系统这一概念,来探讨历史和技术的发展。这里的数据管理系统是宏观意义上的概念,不仅包括MapReduce和Spark等主流的数据管理系统,也包括以PostgreSQL为代表的传统数据库系统、以Flink为代表的流数据管理系统、以Spanner为代表的分布式系统和统一编程系统Apache Beam等。这里的宏观指的是与大数据分析、处理和管理等相关的系统,它们均是数据管理系统,都在我们的讨论范围之内。
首先,本书是一本技术历史书,即技术与历史相结合的书。如果只讲某一技术或者某一时间段的技术,往往会使读者不知前因后果,对技术的产生与发展不够了解,因此很难进行创新。而如果只讲技术发展史,又会缺乏深度,显得有些“肤浅”。因此,我将尽量在技术与历史之间找到平衡点。其次,本书讲的是数据管理系统的技术历史,这就确定了本书的主要内容,即数据库和大数据管理系统以及相关的各类数据信息化处理系统的技术分析和历史演进。本书最终的目的是从数据管理系统的技术历史里面,抽象出大数据管理系统的概念并进行总结,阐述我对数据管理系统的认识。我试图将这些技术实践在历史宏观层面串联起来,帮助读者进一步认识数据管理系统的内容。
不管是技术出身的人还是非技术出身的人都可以感觉到,数据管理系统正处于“百花齐放”的阶段,从学术研究到工业以及服务业应用都是如此。因此,现在来深入认识数据管理系统这个技术领域,将帮助我们更清楚地知道未来科技的发展方向。
随着互联网、社交网络、电子商务、物联网、5G技术的快速发展,全球大数据存储量迅猛增长,成为大数据产业发展的基础。国际数据公司(International Data Corporation,IDC)的数据[1]显示,2013—2015年全球大数据存储量分别为4.3ZB、6.6ZB和8.6ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB),增长率保持在每年 50%以上,2016 年的增长率甚至达到了 87.21%,大数据存储量达到16.1ZB。2017年和2018年全球大数据存储量分别为21.6ZB和33.0ZB。据IDC预计,到2025年,世界范围内的大数据存储量将达到175ZB。
如图0-1所示,根据DB-Engines排行榜的统计数据,到2022年8月,DB-Engines所收录的数据管理系统有 395 个,包括关系数据库、KV数据库、图数据库、时序数据库等。DB-Engines的数据库排名依据的是当前数据库的流行程度,数据来源包括Google以及Bing搜索引擎的关键字搜索数量、Google Trends的搜索数量、Indeed网站中的职位搜索量、LinkedIn中提到关键字的个人资料数、Stack Overflow上的相关问题和关注者数量等。这里的排名并不代表数据库的安装数量或者使用量的多少,但某数据库越来越受欢迎则表示在一定时间范围内其得到了更加广泛的应用。
图0-1 2022年8月的DB-Engines排行榜[2]
从工业和信息化部(简称“工信部”)网站获悉,为推动我国大数据产业持续健康发展,实施国家大数据战略,落实国务院印发的《促进大数据发展行动纲要》,工信部编制并印发了《大数据产业发展规划(2016-2020年)》(以下简称《规划》)[3]。《规划》以强化大数据产业创新发展能力为核心,明确了强化大数据技术产品研发、深化工业大数据创新应用、促进行业大数据应用发展、加快大数据产业主体培育、推进大数据标准体系建设、完善大数据产业支撑体系、提升大数据安全保障能力7项任务,提出大数据关键技术及产品研发与产业化工程、大数据服务能力提升工程等8项重点工程,研究制定了推进体制机制创新、健全相关政策法规制度、加大政策扶持力度、建设多层次人才队伍、推动国际化发展5项保障措施。
如今在学术界、工业界以及大众消费领域,大数据“如日中天”。在数据存储量不断增长和应用驱动创新的推动下,大数据具有广阔的发展空间,大数据产业将不断丰富商业模式,构建出多层多样的市场格局。在本书中,我们将从半个多世纪前即计算机诞生之初开始,来了解数据管理系统走过的路程,并介绍当前数据管理系统的发展现状,进而对数据管理系统的未来进行探讨。