深度学习视频理解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.3 时序动作定位

时序动作定位也称为时序动作检测(Temporal Action Detection),是视频理解的另一个重要领域。动作识别可以看作是一个纯分类问题,其中要识别的视频基本已经经过剪辑(Trimmed),即每个视频包含一段明确的动作,视频时长较短,且有唯一确定的动作类别。而在时序动作定位领域,视频通常没有被剪辑(Untrimmed),视频时长较长,动作通常只发生在视频中的一小段时间内,视频可能包含多个动作,也可能不包含动作,即为背景(Background)类。时序动作定位不仅要预测视频中包含了什么动作,还需要预测动作的起始和终止时刻。

动作识别和时序动作定位的关系有点类似于图像中的图像分类和目标检测的关系,只不过目标检测要预测目标在图像中出现的空间位置,而时序动作定位需要预测出动作开始和结束的时刻。目标检测以图像分类模型为基础骨架,目标检测的效果受益于图像分类模型的优化更新。同样,时序动作定位以动作识别模型为基础骨架,时序动作定位的效果受益于动作识别模型的优化更新。

时序动作定位的应用包括以下几个方面:

● 在网络视频行业,借助时序动作定位技术,可以自动挖掘出视频中的精彩片段或高光时刻,例如,体育视频中的进球时间片段、游戏视频中的击杀时间片段等。挖掘出的视频精彩片段既可以作为一个单独的短视频,也可以作为原视频的动态封面或者精彩预告,以吸引用户观看。为了挖掘精彩片段或高光时刻,以往采用人工剪辑为主,费时费力,而且人工剪辑的视频数量有限。利用时序动作定位及其他视频智能分析技术,不仅能节省人力,而且经过不断迭代之后,剪辑效果甚至可以超过人工,未来发展潜力巨大。

● 时序动作定位不仅可以应用到网络视频场景,直播场景对此也有很大的需求。直播的时长通常较长,而短视频内容能够在用户时间不充裕的情况下直接看到直播的相关精彩片段。根据调查(艾,2020),65.3% 的直播用户看过由直播剪辑而成的短视频内容,这样比较节省时间。近年来,虎牙等直播平台和小葫芦等直播工具已经实现了基于视频内容分析和弹幕数据的精彩画面剪辑能力。

● 时序动作定位除用在网络视频和直播场景外,公共安防的视频监控场景中也有对时序动作定位技术的需求。视频监控通常全天24 小时开启,但其中大部分时间内是没有突发事件发生的,需要关注的事件通常只发生在一小段时间内。如果能自动从全量监控视频中识别出突发事件的起止时间片段,将节省大量人工监控和筛选的工作,更高效地进行突发情况预警。

时序动作定位的难点在于,目标检测中目标的空间边界通常是比较清晰的,可以标出比较明确的边界框(Bounding Box),但是时序动作定位中动作的时间边界很多时候并不清晰,难以明确地标注出一个动作具体是从第几帧开始、第几帧结束的。此外,目标检测中不同的目标大小区别可能很大,时序动作定位中不同动作的时长跨度也很大,一个动作的时长可以从几秒到几百秒不等。

时序动作定位最常用的数据集有两个。一个是THUMOS-14(Idrees et al.,2017),它的训练集是UCF-101,包含101 类动作,13,320个已经剪辑好的视频;THUMOS-14的验证集有1,010个未被剪辑的视频,包含101 类,每个类别有10个视频,其中只有20 类动作对应的200个未被剪辑的视频有时序标注,剪辑后共得到3,007个动作时序区间,平均每个剪辑后的时序区间时长为4 秒;THUMOS-14的测试集有1,574个未被剪辑的视频,其中只有20 类动作对应的213个未被剪辑的视频有时序标注,剪辑后共得到3,358个时序区间。研究者通常在THUMOS-14的验证集上训练,在测试集上查看效果。可以看出,THUMOS-14 实际是很小的数据集。另一个常用数据集是ActivityNet-1.3(Heilbron et al.,2015),包含200 类动作,训练集有10,024个视频,验证集有4,926个视频,测试集有5,044个视频,总共有23,065个时序标注,平均每个视频有1.15个时序标注,视频平均时长为128 秒,视频总时长达到700 小时,每个剪辑后的时序区间平均时长为49.2 秒,是相对比较大的数据集。

第5章将对常用的时序动作定位算法进行介绍。对时序动作定位领域感兴趣的读者可参考综述论文(Xia & Zhan,2020)。