大数据时代管理信息系统
上QQ阅读APP看书,第一时间看更新

1.2.1 天文学——信息爆炸的起源

综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数据的时代已经到来。以天文学为例,2000年斯隆数字巡天项目(见图1-6)启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,就比世界天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×242B。2016年在智利投入使用的大型视场全景巡天望远镜能在五天之内就获得同样多的信息。

天文学领域发生的变化在社会各个领域都在发生。2003年,人类第一次破译人体基因密码的时候,辛苦工作了10年才完成了30亿对碱基对的排序。大约10年之后,世界范围内的基因仪每15min就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中2/3的交易都是由建立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据来预测利益和降低风险。

图1-6 美国斯隆数字巡天望远镜

互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24PB(拍字节,250B)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。

从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了人们创造机器的速度,甚至超过了人们的想象。

我们周围到底有多少数据?增长的速度有多快?许多人试图测量出一个确切的数字。尽管测量的对象和方法有所不同,但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁希尔伯特进行了一个比较全面的研究,他试图得出人类所创造、存储和传播的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件。马丁希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进行了研究。

据他估算,仅在2007年,人类存储的数据就超过了300EB(艾字节,260B)。下面这个比喻应该可以帮助人们更容易地理解这意味着什么:一部完整的数字电影可以压缩成1GB的文件,而一艾字节相当于10亿吉字节(GB),一泽字节(ZB,270B)则相当于1024EB。总之,这是一个非常庞大的数。

有趣的是,在2007年的数据中,只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。

模拟数据也称为模拟量,相对于数字量而言,指的是取值范围连续的变量或者数值,例如声音、图像、温度、压力等。模拟数据一般采用模拟信号,例如用一系列连续变化的电磁波或电压信号来表示。数字数据也称为数字量,相对于模拟量而言,指的是取值范围是离散的变量或者数值。数字数据则采用数字信号,例如用一系列断续变化的电压脉冲(如用恒定的正电压表示二进制数1,用恒定的负电压表示二进制数0)或光脉冲来表示。

但在不久之前,情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念,在2000年的时候,数字存储信息仍只占全球数据量的1/4,当时,另外3/4的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

早期数字信息的数量并不多。对于长期在网上冲浪和购书的人来说,那只是一个微小的部分。事实上,1986年,世界上约40%的计算能力都在袖珍计算器上运行,那时候,所有个人计算机的处理能力之和还没有所有袖珍计算器处理能力之和高。但是因为数字数据的快速增长,整个局势很快就颠倒过来。按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没有增加。

2013年,世界上存储的数据达到约1.2ZB,其中非数字数据只占不到2%。这样大的数据量意味着什么?如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果将之存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。

公元前3世纪,埃及的托勒密二世竭力收集了当时所有的书写作品,所以伟大的亚历山大图书馆(见图1-7)可以代表当时世界上所有的知识量。亚历山大图书馆藏书丰富,有据可考的超过50000卷(纸草卷),包括《荷马史诗》《几何原本)等。但是,当数字数据洪流席卷世界之后,每个地球人都可以获得大量的数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击。

历史学家伊丽莎白·爱森斯坦发现,1453—1503年,这50年之间大约印刷了800万本书籍,比1200年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之,欧洲的信息存储量花了50年才增长了一倍(当时的欧洲还占据了世界上相当部分的信息存储份额),而如今大约每三年就能增长一倍。

这种增长意味着什么呢?彼特·诺维格是谷歌的人工智能专家,也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长与图画进行类比。首先,他要我们想想来自法国拉斯科洞穴壁画上的标志性的马,如图1-8所示。这些画可以追溯到一万七千年之前的旧石器时代。

图1-7 举世闻名的古代文化中心——亚历山大图书馆(已毁于早期的战火)

图1-8 拉斯科洞穴壁画

回想一下壁画上的那匹马。当时要画一幅马需要花费很久的时间,而现在不需要那么久了,这就是一种改变。虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像。但是诺维格说,想象一下,现在我们能每秒播放24幅不同形态的马的图片,这就是一种由量变导致的质变。一部电影与一幅静态的画有本质上的区别,大数据也一样,量变导致质变。物理学和生物学都告诉人们,当改变规模时,事物的状态有时也会发生改变。

以纳米技术为例,纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子级别时,它的物理性质就会发生改变。一旦知道这些新的性质,就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在的时候,这种性质就会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当增加所利用的数据量时,也就可以做很多在小数据量的基础上无法完成的事情。

有时候,我们认为约束自己生活的那些限制,对于世间万物都有着同样的约束力。事实上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对于人类来说,唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着人们。但对于细小的昆虫来说,重力是无关紧要的。对它们而言,物理宇宙中有效的约束是表面张力,这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。

大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。尽管我们还处在大数据时代的初期,但我们的日常生活已经离不开它。