答:在这篇论文中,作者系统地研究这种模态,旨在开发一种原则性且有效的方法模拟动态骨骼,并利用它们进行人类行为识别。 在 2D 或 3D 坐标形式下,动态骨骼模态可以自然地由人类关节位置的时间序列表示。 然后,通过分析其动作模式可以做到人类行为识别。 早期基于骨骼进行动作识别的方法只是在各个时间步骤使用关节坐标形成特征向量,并对其进行时序分析 (Wang et al. 2012; Fernando et al. 2015)。
答:基于骨骼点的动作识别 (Skeleton-based Action Recognition) 旨在从一系列时间连续的人体骨骼点中识别正在执行的动作。
答:基于 RGB 模态的方法,通常只在一个较短的时间窗内采帧构成 3D-CNN 的输入(如 SlowFast 在一个长仅为 64 帧的时间窗内采帧)。 由于这种采帧方式难以捕捉整个动作,因此在骨骼行为识别中,我们采用了均匀采样的方式:需要采 帧时,我们先将整个视频均分为长度相同的 段,并在每段中随机选取一帧。
答:然而,比起外观和光流建模,动态骨骼建模受到的关注较少。 在这篇论文中,作者系统地研究这种模态,旨在开发一种原则性且有效的方法模拟动态骨骼,并利用它们进行人类行为识别。 在 2D 或 3D 坐标形式下,动态骨骼模态可以自然地由人类关节位置的时间序列表示。