大模型时代的计算机视觉！CVPR 2024 最火的研究主题是什么？

作为计算机视觉领域的顶级会议，CVPR 每年都会吸引大量研究机构和高校参会。4月5日，CVPR官方发文称，今年共提交了 11532 份有效论文，2719 篇论文被接收，录用率为23.6%。与去年相比，共有 9155 篇论文提交，2359 篇论文接收，录用率降低2.2%。CVPR、ICCV、ECCV被誉为计算机视觉和模式识别领域最顶级的学术会议。与另两个顶会不同，CVPR每年举办一次。CVPR 20

快乐小码农

1988人浏览 · 2024-06-12 09:31:32

快乐小码农 · 2024-06-12 09:31:32 发布

作为计算机视觉领域的顶级会议，CVPR 每年都会吸引大量研究机构和高校参会。

4月5日，CVPR官方发文称，今年共提交了 11532 份有效论文，2719 篇论文被接收，录用率为23.6%。与去年相比，共有 9155 篇论文提交，2359 篇论文接收，录用率降低2.2%。

CVPR、ICCV、ECCV被誉为计算机视觉和模式识别领域最顶级的学术会议。与另两个顶会不同，CVPR每年举办一次。

CVPR 2024 将于6月17日-21日在美国西雅图召开。

在这里插入图片描述

大模型时代，计算机视觉（CV）领域的热点话题也在不断的发生着变化。

那么今年的 CVPR 研究主题有哪些变化？

最近，乔治亚理工学院计算机学院（College of Computing, Georgia Institute of Technology）对 CVPR 2024 录用数据的统计分析，直观呈现了当前计算机视觉领域的研究热点分布情况。

论文主题涵盖 36 个主题领域。根据各主题的论文数量从大到小排名：

在这里插入图片描述

1. 图像和视频合成与生成

图像和视频合成与生成（Image and video synthesis and generation），在 CVPR 2024 主题排名第 1 位，一共 329 篇。

这是今年 CVPR 最火的研究主题。

在这里插入图片描述

2. 三维视觉

三维视觉（3D from multi-view and sensors），在 CVPR 2024 主题排名第 2 位，一共 276 篇，延续了去年顶会的热度。

事实上，图像和视频合成与生成和三维视觉也是目前计算机视觉研究的重点。

3. 人体行为识别

人体行为识别（Humans: Face, body, pose, gesture, movement），在 CVPR 2024 主题排名第 3 位，一共 202 篇。

该领域研究在人机交互、机器人、监控等领域有着广泛应用。

4. 视觉、语言与语言推理

视觉、语言与语言推理（Vision, language, and reasoning），在 CVPR 2024 主题排名第 4 位，一共有 152 篇。

这是一个交叉研究方向，旨在帮助计算机像人一样理解、关联视觉和语言信息，完成推理、问答、决策等高层认知任务。

数据表明，这个领域正受到学界高度关注。

比如：

视觉推理，让机器具备基于视觉的逻辑推理、常识推理能力，对于智能教育、智慧法庭、辅助决策等高端应用意义重大；
视觉语言导航，可用于室内外机器人导航、头显设备的导航、无人机巡检；
多模态信息融合 (Multimodal Fusion）实现全面、准确的场景理解；
视觉语言预训练模型 (Vision-Language Pretraining)，试图实现更高层次的语义理解和任务处理能力，为人工智能技术的发展和应用拓展了新的边界。

5. 底层视觉

底层视觉（Low-level vision），在 CVPR 2024 主题排名第 5 位，一共 131 篇。

6. 识别：分类、检测、检索

传统的识别检测、分割（Recognition: Categorization, detection, retrieval）等基础任务论文数量相对减少，但仍是研究重点，在 CVPR 2024 主题排名第 6 位，一共 127 篇。

7. 机器人 + AI

2022年10月，首台人形机器人——**擎天柱（Optimus）**在特斯拉AI Day上亮相。此后特斯拉以近乎6个月一代的速度更新产品，并于2023年12月发布了第二代Optimus机器人，实现了快速行走、搬运物体和拾取鸡蛋等运动能力。人形机器人将成为智能时代的重要载体。

除特斯拉以外，英伟达、微软等全球科技巨头也在纷纷布局人形机器人领域，华为、比亚迪、宁德时代等也开始重点关注该领域，推动产业加速进步。

在这里插入图片描述

鉴于上半年人形机器人大热，我们来看看机器人 + AI。

在这里插入图片描述

图：人形机器人未来新增空间预测（单位：亿元）

正如接收论文 “State Space Models for Event Cameras” 讨论的，事件相机等技术的发展表明，机器人感知周围环境的方式得到了显着增强。这些创新将有助于机器人、自动驾驶在复杂、动态环境中实现更好的导航和交互。

CVPR 2024 对 AI 和机器人技术的关注，凸显了先进计算模型、感知增强技术以及对人类场景深度理解等方面与机器人系统的逐步整合。

7.1 机器人

首先，机器人（Robotics) 主题一共 29 篇，在 CVPR 2024 主题排名第 25 位，涉及机器人视觉、导航、操纵等研究，视觉感知是机器人实现智能化的关键。

在这里插入图片描述

7.2 自动驾驶

其次，自动驾驶是机器人领域最热门的应用方向之一，需要视觉感知、决策规划、控制等多项 AI 技术的支持。

自动驾驶（Autonomous driving），在CVPR 2024 主题排名第 12 位，一共 87 篇。

7.3 具身视觉：主动代理、模拟

通过视觉、动作等多模态交互，让机器人在仿真或真实环境中学习，是一个新兴的研究范式。机器人越来越多地具备同时处理多项任务的能力。

具身视觉：主动代理、模拟（Embodied vision: Active agents, simulation），在CVPR 2024 主题排名第 26 位，一共 27 篇。

例如：

“ManipLLM：Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation” 等论文也呈现出一种转变 —— 集成各种数据类型（文本、视觉、传感器数据）、在环境中执行复杂操作和交互的模型。
“Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households”，直接聚焦于家庭服务机器人中的对抗建模问题，旨在实现更加主动、适应性强的机器人助手。

7.4 视频：行动和事件理解

对于机器人而言，理解视频中的动作、事件语义，对实现智能人机交互非常关键，仍然是一个核心研究主题。

视频：行动和事件理解（Video: Action and event understanding），在CVPR 2024 主题排名第 13 位，一共 78 篇。

7.5 视觉+图形

3D 重建、渲染等技术在机器人仿真、VR/AR 等方面有重要应用。

视觉+图形（Vision + graphics），在CVPR 2024 主题排名第 18 位，一共 56 篇。

7.6 视觉应用和系统

机器人是视觉技术的主要应用方向之一。

视觉应用和系统（Vision applications and systems），在CVPR 2024 主题排名第 23 位，一共 44 篇。

参考：
https://cvpr.thecvf.com/Conferences/2024
https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2
https://www.thepaper.cn/newsDetail_forward_27675070

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。