论文阅读：SimVP: Simpler yet Better Video Prediction

作者认为，现有的CNN，RNN，Transformer 之类的视频预测领域的模型都过于复杂了，作者想要找到一个简单的方式，同时可以达到与之相当的效果。作者提出了 SimVP，这是一个简单的视频预测模型，完全基于 CNN 构建，通过均方误差（MSE）损失函数以端到端的方式进行训练。在不引入任何额外技巧与复杂策略的情况下，就可以实现最先进的性能。

ghost_him

1628人浏览 · 2024-08-28 15:08:53

ghost_him · 2024-08-28 15:08:53 发布

论文地址：arxiv

摘要

作者认为，现有的CNN，RNN，Transformer 之类的视频预测领域的模型都过于复杂了，作者想要找到一个简单的方式，同时可以达到与之相当的效果。

作者提出了 SimVP，这是一个简单的视频预测模型，完全基于 CNN 构建，通过均方误差（MSE）损失函数以端到端的方式进行训练。在不引入任何额外技巧与复杂策略的情况下，就可以实现最先进的性能。

正文

深度视频预测模型当前主要有 4 类，如图所示：

分别是:

RNN-RNN-RNN
CNN-RNN-CNN
CNN-ViT-CNN
CNN-CNN-CNN

在纯 CNN 基础模型方面，要提高准确度，通常要使用各种技术，但是作者探索出了一个简单模型的新高度。

问题描述

给定一个在时间 $t$ 的包含过去 $T$ 帧的视频序列 $X_{t,T}=\{x_{i}\}^t_{t-T+1}$ ，而目标是在时间 $t$ 预测未来的序列 $Y_{t,T'} = \{x_{i}\}^{t+T'}_t$ 。该序列包含接下来的 $T^{'}$ 帧，其中 $x_{i}$ 是一个具有通道数 $C$ ，高度 $H$ 和宽度 $W$ 的图像。形式上，预测模型是一个映射 $F_\Theta:X_{t,T}->Y_{t,T'}$ ，其中的可学习参数 $\Theta$ 通过以下公式优化：

$\Theta ^* = \arg \min _{\Theta } \mathcal {L}(\mathcal {F}_{\Theta }(\boldsymbol {X}_{t, T}), \boldsymbol {Y}_{t, T'})$
$L$ 可以是各种损失函数。

模型架构

SimVP 由一个编码器，一个翻译器，一个解码器组成。

编码器用于提取空间特征
翻译器学习时间演变
解码器则整合时间信息以预测未来帧

编码器

编码器堆叠了 $N_s$ 个 ConvNormReLU 块（Conv2d+LayerNorm+LeakyReLU）来提取空间特征，即在（H，W）上进行 C 通道的卷积。隐藏特征表示为：

$z_{i} = \sigma (\mathrm {LayerNorm} (\mathrm {Conv2d}(z_{i-1}))), 1 \leq i \leq N_s$

其中输入 $z_{i-1}$ 和输出 $z_i$ 的形状分别为 $(T, C, H, W)$ 和 $\hat{H}, \hat{W})$ 。

翻译器

翻译器使用 $N_t$ 个 Inception 模块来学习时间演变，即在 $(H, W)$ 上进行 $T * C$ 通道的卷积。

Inception 模块由一个 1*1 大小的 Conv2d 后接并行的 GroupConv2d 操作符完成。隐藏特征表示为：
$z_{j} = \mathrm {Inception}( z_{j-1} ), N_s < j \leq N_s+N_t$
其中输入 $z_{j-1}$ 和输出 $z_j$ 的形状分别为 $(T * C, H, W)$ 和 $(\hat{T}*\hat{C}, H, W)$ 。