政治学评论(2023年第1辑)
上QQ阅读APP看书,第一时间看更新

三 时空分析

在使用移动终端和社交媒介时产生的具有时间和位置属性的大数据被称为时空大数据(spatial-temporal big data)。随着传感器、物联网和社交媒介的普及化,时空大数据逐渐增多,对时空大数据分析也越来越重要。早在2011年,麦肯锡环球研究院就认为医疗保健、零售、公共领域、制造业和个人位置这五大类数据组成了当前主要的大数据流。[114]目前,常见的时空大数据包括移动运营商或手机应用程序自动记录的个人移动轨迹数据、GPS设备记录的移动轨迹数据、各种监控设备记录的位置移动数据以及社交媒体用户发布的位置信息等。在概念上,对时空大数据的定义尚未统一,通常从特征入手,认为时空大数据是指基于统一时间和空间范围,与人和物体位置及其变化有关的数据。按照面向对象的差异,时空大数据也可以划分为遥感大数据和具有位置坐标、时间标签的大数据。[115]

时空大数据有特殊价值。时空大数据能够反映特定区域内,在时间变化之下,人口和物体分布状况和流动趋势,能够探索现实空间内各个实体的数量、质量、结构和关系,随时间变化发生演变的规律、模式和趋势。具体来说,时空大数据在空间和时间上具有动态演化特性,这些基于时空大数据要素的时空变化是可被度量的,时空大数据具有尺度特性,根据比例尺大小、采样粒度以及数据单元划分的详细程度,可以建立时空大数据的多尺度表达与分析模型,时空大数据具备多维动态可视化特性,实时获取对象在不同阶段的行为特征,通过参照并映射到三维地理空间中,可以实现动态可视化渲染效果,从而更好地觉察、理解和预测对象的发展。[116]因此,对时空数据的挖掘和计算成为一项研究热点。学界致力于开发各种模型来提取时空大数据当中隐藏的个体行为、群体行为、社会空间差异和变化规律。目前,时空大数据的计算技术体系包括两个方向:一个是面向大规模、多介质的信息,使计算机可以处理更大范围的信息;另一个则是深入结合人工智能,使计算机系统可以更加智能地处理信息。时空大数据的智能化处理主要依托深度学习,即通过历史数据结果,生成复杂多元公式,然后依托公式或算法拟合所有数据,并套用公式得到实际场景的结果。[117]

在运用范围的扩展中,政治学研究领域也认识到了时空大数据的重要性。时空大数据的运用场景逐渐多元化。时空大数据常用于气候变化研究、公共安全监测、资源保护、交通监测、公共卫生监测和城市治理等多元化的领域。时空大数据的计算方法和软件平台也在不断发展,致力于从中挖掘有价值的知识模式。可度量的和不可度量的空间关系以及时间关系都需要在数据挖掘中加以考虑,然而这些时空关系往往是隐含在时空数据中的,这就需要在数据挖掘系统中结合时空推理来处理这些复杂的时空关系。在此背景下,时空大数据也进入了政治学的研究领域。国内外的一些学者尝试利用时空大数据来对政治现象的变化及其趋势展开探究,揭示政治现象变化与时空分布和演进的内在关联,从时空大数据中挖掘出新的规律,检验或建构政治学的基本概念、假设和理论。

目前,以时空大数据为基础的研究方法十分多元,尚未形成统一的划分标准,时空大数据在政治学研究中的运用也处于起步阶段。尽管丰富和可共享的空间数据能够将空间概念引入政治学分析框架,然而,受数据获取能力和分析能力的限制,政治学研究中空间分析的应用还非常缺乏。[118]根据目前的研究动态,国内外政治学界在利用时空大数据研究政治问题时存在着静态和动态两种思维模式取向。在静态意义上,学者们大多以单位时间和空间为二维横截面,探讨特定时间和空间范围内政治要素的分布情况,从中归纳出政治要素的时空分布规律,将其总结为一般性的政治学规律。而在动态意义上,学者们大多关注时间和空间变化基础上的政治要素变化情况,在时空演变和政治要素变化之间建构关联。因此,基于时空大数据的政治学研究可以大致划分为时空分布分析和时空演进分析。

(一)时空分布分析

时空分布分析是从静态角度通过聚类或分类挖掘时空大数据要素的时空分布特征及其规律。通常来说,时空分布分析的目的是挖掘要素与特定时空的关联模式,将这种模式作为要素的时空分布规律。在大数据政治学中使用时空分布分析,能够从静态维度来呈现特定时间和空间范围内政治要素的分布情况,包括政治主体和政治客体的时间和空间分布状态,从要素分布的差异或共性角度来反映政治现象的时空分布规律。

目前,多种软件、平台和方法能够实现时空大数据的分布分析。MapReduce、Storm、Spark、Flink等软件平台能够实现时空大数据的存储和有效计算。在可视化方面,比较典型的是基哈伯网站 (Git Hub) 上共享的海杜普地理信息系统工具 (GIS Tools for Hadoop),用户可以利用其对上亿条空间数据记录进行过滤和聚合操作,在报告中嵌入大数据地图进行研究。国内的“百度地图”等平台也能够较好地展现时空大数据。目前,常用的时空数据挖掘任务主要表现为时空模式发现、时空聚类、时空异常检测、时空预测和分类以及时空推理,[119]致力于在特定时空范围内探讨要素的分布规律。

从时空大数据中探索要素的时空分布,能够发现政治主体的行为时空分布情况,将这种分布情况与其政治属性进行联合分析,为传统的政治学议题提供更加新颖的数据来源和分析视角,对这些问题的基本结论也能够有所推进。有学者将美国手机用户的位移情况与选举数据进行结合分析,从家庭聚会频率分布情况来探讨美国政治极化发展趋势。通过融合超过1000万美国手机用户的流动数据与选区选举数据库,揭示了美国政党分歧已经影响到家庭的关系,研究发现,有党派分歧的家庭在2016年大选前感恩节晚餐的聚会时间要比无党派分歧的家庭少30—50分钟,且选举广告会加剧这个差别,不同党派家庭成员之间原本可以通过家庭聚会获得更多沟通机会,但研究发现这种时机正逐年减少,[120]这种现象也反映了美国政治极化使家庭内部的党派分歧正在加剧。

利用公众居住和活动时空分布特征来研究族群关系和种族主义,也是时空大数据在政治学研究中一种比较新颖的方式。在此议题中,学者们通常会利用居民出行活动的时空特征,判断居住分异和社会隔离是否发生以及发生程度。例如,使用地理位置及其数字标记识别不同种族、收入人群的日常活动空间,发现存在社会隔离的空间边界,并将其与特定政治现象联系起来。[121]

例如,有学者将美国居民的居住位置与种族隔离情况进行了联合分析,根据美国50个主要城市40万人在推特上显示的住址数据来研究美国的种族主义,研究发现,各种族和收入人群的移动距离和访问过的邻居数量在大都市地区都差不多,但是黑人、拉美裔人与富人、白人中产阶级的接触要远远少于白种人,贫穷的白人社区与富有的白人社区也是相互孤立的,该项研究从人们流动性的角度揭示了美国虽是多元文化国家,但人们在地域上还是被种族和社会阶层所分隔,因此导致黑人和贫困阶层缺乏与主流社会的交往,从而不能共享时空便利条件。[122]另外,在美国种族主义这一问题上,也有学者根据居民住址和附近银行设施的便利性程度,探究了不同种族居民的公共服务供给程度的差异。小马里奥(Small Mario)等人基于600多万个位置查询数据,计算了步行、开车或乘坐公共交通工具到最近银行所需的时间,结果表明,种族比阶级的影响更为显著,贫困和少数族裔聚居区域内获取银行服务便捷性相对更差。[123]

时空大数据也被用于评估特定治理单元内公共风险的分布情况。在公共卫生治理领域,可以基于腾讯用户密度数据评估人群聚集风险的等级和空间分布,同时结合事故发生的概率、事故后果的严重性和风险规避因子,政府可以确定不同区域的人群控制措施,以降低人群聚集风险,防止危险事件的发生。[124]也有学者结合基于主体的模型和易感—暴露—感染—去除模型,提出了一个基于个体的流行病模型,并对新冠肺炎在广州市11个公共场所的城内传播过程进行了探索,结果显示,利用现有大数据和重力模型估算的动态市内出行流量的精度是可以接受的,时空模拟方法很好地再现了新冠疫情的过程,发现了四种时空传输模式,这些模式高度依赖城市的空间结构和位置,基于位置的精确干预措施应根据不同的区域实施进行快速和准确的风险评估,并在流行病暴发前实施干预措施。[125]

利用时空大数据也能够从公共政策影响和效果的时空分布上,对公共政策绩效进行评估。公共政策在不同时空场域内的效果受多方面因素制约,绩效也有差异。通过搜集相关的时空大数据,能够对政策效果时空分布差异进行宏观分析,对公共政策进行更加精准地追踪、总结和反馈。在生态环境领域,政策的效果差异显著。一些学者根据1980—2018年京津冀地区农村居民点用地的转变程度、转变趋势、转变形态和转变强度等特征,分析认为京津地区的转型程度和转型强度呈现长期活跃的增长趋势,而环京津地区则呈现逐渐放缓的趋势。[126]在环境治理领域,也有学者根据2004—2016年中国30个省份的环保数据来探究城市环境治理效率的时空区域差异,发现环境治理效率高低的省份在时间上表现出空间集聚性,政府环境治理行为的空间依赖性是城市环境治理效率区域差异的最大来源。[127]此外,何通根据中国绿色建平指数指标体系构建了贵州省减贫成效评价指标体系,通过经济发展的空间聚集能力对脱贫攻坚的成效进行了时空分布分析,研究发现贫困片区的绿色减贫水平呈现出较强的空间正相关性,即贫困片区各县域减贫发展的空间集聚能力较强,存在显著的全局空间集聚效应。[128]

(二)时空演进分析

时空演进分析侧重于以时间和空间变换为基本视角,探究时空转变影响之下,要素的演变和发展趋势,是一种基于时空大数据的动态分析过程。时空紧耦合和动态演化是时空大数据的本质属性。[129]因此,基于时空大数据的演进分析已经得到了重视,常用于环境保护、城市规划、交通治理和城市治理等实践和研究领域,在政治学研究中的运用尚处于探索阶段。根据目前已有的学术动态,政治学研究中基于时空大数据来探索时空演进模式,集中于以下几个议题。

首先,基于时空大数据的演进分析常通过人们的位置移动轨迹数据来研究政治风险的时空演变趋势。难民问题是当代世界面临的重大政治问题,对特定区域造成了严重的影响,难民本身具有高度的流动性,利用难民的位置和轨迹移动数据,能够对其展开有效的分析和研判。利用机器学习方法和公开可用的位置数据以及历史难民流动统计数据来分析难民移动的时空变化特征,从而分析集体难民流动的时空演变模式,能够预测难民入境人数增加或减少,并分析潜在风险,制定相应的举措。[130]此外,韩增林等人根据“国家恐怖主义与反恐研究联盟”的全球恐怖主义数据库公布的数据,利用核密度估计法(Kernel Density Estimation)来研究“一带一路”沿线国家安全态势的时空演变,结果显示,从1970—2017年“一带一路”沿线国家安全态势日益严峻,阶段性特征显著,共经历了“兴起—活跃—回落”三大阶段,在空间上,国家安全态势标准差椭圆向北偏西方向移动,转移路径为西亚北非地区—南亚地区—西亚北非地区。[131]

其次,基于时空大数据的演进分析也常常根据社交媒介上的时空大数据来研究公共舆情的时空演变,为引导和干预舆情提供依据。突发公共事件引发的网络舆情信息具有空间、时间和内容等多个相关因素,其中,时间与地理标记可以用来研究用户活动模式,如流动性、聚集性或随机性等。[132]在突发事件影响下,舆情时空模式展现出非线性演化和聚类特征。[133]而社交平台上的用户位置和轨迹数据为追踪、分析和预测舆情提供了可能。能够基于机器学习和地理可视化方法来识别事件,并实时跟踪重要事件舆情时空演变及其影响,[134]具有显著的优势。王卷乐等人以新浪微博为数据源,从数量、空间、时间、内容等方面分析了2020年1月9日至3月10日在湖北省、京津冀、长三角、珠三角、成渝等城市群及沿边口岸等重点区域疫情引发的舆情时空演进,结果表明,疫情舆情在区域内部的时空聚集更为显著,京津冀以首都北京为中心,长三角以上海为中心,辅以南京、杭州等热点,珠三角以广州和深圳为两核,湖北省以武汉为中心,为加强重点区域的舆情关注和因地制宜制定干预措施提供了合理依据。[135]