3.2 NetVLAD和NeXtVLAD
如果我们想在平均汇合的基础上进一步提升动作识别的分类准确率,需要更加复杂的一些汇合方法,本节将介绍其中的两种主流汇合算法:NetVLAD(Arandjelovic et al.,2016)和NeXtVLAD(Lin et al.,2018a)。如图3-2所示,通常用它们替换图3-1中的平均汇合会带来显著的分类准确率的提升。
图3-2 利用图像分类模型和NetVLAD/NeXtVLAD 进行动作识别网络结构图
由于NetVLAD和NeXtVLAD 都是从 VLAD(Vector of Locally Aggregated Descriptors,局部聚合描述向量)(Jégou et al.,2010)发展而来的,因此本节会按照这三者的演进顺序依次进行介绍。另外,为了方便理解,统一了VLAD、NetVLAD和NeXtVLAD的符号,因此本节使用的符号会和原论文中略有出入,但是算法思想是一致的。
如图3-3所示,图中的点表示视频中不同帧的特征。平均汇合用所有帧的特征的平均值作为视频级别的特征,见图3-3(a)中的星形。平均汇合适用于所有帧特征都比较相似的情况,即图中的点之间相距比较近的情况,此时用平均值可以描述帧特征整体的情况。但是,一个完整的视频中的动作可能包含多个运动和实体,例如,一个投篮的视频中可能包括“篮框”“控球”“跳”“群体”“投球”“球”“跑动”等多个行为和实体(Girdhar et al.,2017),此时只用平均值表示所有的帧特征是不够的,会损失很多信息。
相比之下,VLAD 系列方法将所有的特征划分为多个聚类,见图3-3(b)中的虚线,之后对每个聚类内的特征进行汇合,每个聚类得到一个汇合后的特征,最终将所有聚类汇合后的特征拼接(Concatenation)成一个全局的特征向量作为视频级别的特征向量。相比于平均汇合只用一个全局的平均值,VLAD 系列方法将特征划分为多个聚类。因此,能对动作中的多个运动和实体进行刻画。
图3-3 平均汇合和NetVLAD 对比。本图源于(Girdhar et al.,2017)