YOLO框架最新综述从YOLOV1-YOLOV11（2024年10月23）

这篇文章《YOLO框架：目标检测中的演变、应用与基准的全面回顾》是一篇关于YOLO（You Only Look Once）框架的综合性回顾。

Funny_AI_LAB

2173人浏览 · 2024-10-29 00:34:10

Funny_AI_LAB · 2024-10-29 00:34:10 发布

这篇文章《YOLO框架：目标检测中的演变、应用与基准的全面回顾》是一篇关于YOLO（You Only Look Once）框架的综合性回顾。YOLO是一种具有革命性的单阶段目标检测算法，以其在速度和准确性之间的显著平衡而闻名。文章由Momina Liaqat Ali和Zhou Zhang撰写，发表日期为2024年10月23日，是一篇未经过同行评审的预印本。
在这里插入图片描述

综述主要内容

YOLO的发展历程： 从最初的YOLOv1到最新的YOLOv11，每一代版本都在特征提取、边界框预测和优化技术等方面引入了重要的创新。这些改进特别是在骨干网络（backbone）、颈部（neck）和头部（head）组件上的进步，使得YOLO成为实时目标检测领域的领先解决方案。

YOLO的应用领域： 文章探讨了YOLO在多个领域的应用，包括但不限于：

医疗成像：在COVID-19检测、乳腺癌识别和肿瘤定位中发挥了重要作用，提高了诊断效率。
农业：用于樱桃、番茄等作物的果实检测，以及农业害虫的快速检测。
林业：基于改进的YOLOv5模型和迁移学习，用于森林害虫的检测。
自动驾驶：通过结合特征增强和注意力机制，提出了轻量级YOLOv8番茄检测算法。
工业制造：用于表面缺陷检测，如钢板表面缺陷检测。
视频监控：在恶劣天气条件下的目标检测性能评估，例如沙尘暴环境中的车辆检测。
无人机：基于轻量级YOLOv5模型的森林火灾检测。

重点研讨： 跨多个基准数据集对YOL0 模型(例如YOLOv9、YOLO- NAS、YOLOv10 和YOLONI1)进行深入的性能分析。该分析比较了它们对一系列应用的适用性，从轻量级联入式系统到高分辨率、复杂的物体检测任务。

突破进展： 论文还解决了YOLO 的挑战，例如遮挡、小物体检测和数据集偏差，同时讨论了旨在減轻这些限制的最新进展。

本综述的数据来源

检索涵盖了一系列顶级出版物包括但不限于:

IEEE模式分析和机器智能汇刊(TPANI)
计算机视觉和图像理解(CVIU)
机器学习研究杂志 (JILR）
国际计算机视觉杂志 (IJCV )
人工智能研究杂志 (JAIR）
IBBE Xplore、SpringerLink以及关键会议论文集，包括CVPR、ICCV和ECCV

搜索结果产生了53200篇文章的初始池。为了管理这个庞大的馆藏，采用了两步筛选流程，最终本文综述由126篇相关文章所整理：

标题筛选: 对标题进行审查，以消除与YOL0或对象检测方法不直接相关的论文。
摘要節选: 对摘要进行彻底检查，以评估每篇文章在YOL0架构创新、应用或比较分析方面的相关性。

yolo模型的对比

以下是YOLO系列从v1到v11的模型发表时间及相关文章，以及模型的主要优化点：
在这里插入图片描述

YOLOv1

发布日期：2016年6月
作者：Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
论文：“You Only Look Once: Unified, Real-Time Object Detection”
主要优化点：
- 将目标检测任务转化为单次前向传播问题，显著提升检测速度
- 能够以45 FPS的速度处理图像，有一个更快的版本可以达到155 FPS
- 限制：在小物体检测上的精度较差，且定位误差较高

YOLOv2 (YOLO9000)

发布日期：2017年12月
作者：Joseph Redmon, Ali Farhadi
论文：“YOLO9000: Better, Faster, Stronger”
主要优化点：
- 能够检测9000种类别物体
- 多尺度训练增强模型鲁棒性
- 引入anchor boxes改进对小物体的检测能力

YOLOv3

发布日期：2018年4月
作者：Joseph Redmon, Ali Farhadi
论文：“YOLOv3: An Incremental Improvement”
主要优化点：
- 引入Darknet-53作为主干网络，结合残差网络提高检测精度
- 多尺度预测改善对小物体的检测
- 取消软分类器，使用独立的二元分类器提高性能

YOLOv4

发布日期：2020年4月
作者：Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao
论文：“YOLOv4: Optimal Speed and Accuracy of Object Detection”
主要优化点：
- 提出Bag of Freebies和Bag of Specials优化策略，提高模型精度
- CSPDarknet53更高效的主干网络，提升网络推理速度和精度
- 引入CIoU损失函数提高边界框回归性能

YOLOv5

发布日期：2020年6月
作者：Glenn Jocher
无论文发表，开源地址：https://github.com/ultralytics/yolov5
主要优化点：
- YOLOv5转向Pytorch框架，便于开发者使用和扩展
- 自适应的anchor box学习机制提高检测效率
- 提供多种尺寸的预训练模型满足不同场景需求

YOLOv6

发布日期：2022年6月
作者：美团技术团队
论文： “YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications”
主要优化点：
- 针对行业应用优化，尤其注重推理速度
- 引入EfficientRep带来更高效的网络架构
- 优化模型部署性能，适合工业环境中的大规模应用

YOLOv7

发布日期：2022年7月
作者：Wong Kin-Yiu, Alexey Bochkovskiy, Chien-Yao Wang
论文："YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors"
主要优化点：
- 在COCO数据集上达到新的速度与精度平衡
- 跨尺度特征融合提高对不同尺度物体的检测能力
- 改进训练过程中的标签分配方式提高训练效率

YOLOv8

发布日期：2023年1月
作者：Ultralytics团队
无论文发表，开源地址：https://github.com/ultralytics/ultralytics
主要优化点：
- 提供可定制的模块化设计方便用户根据需求进行扩展
- 内置多种训练和超参数优化策略简化模型调优过程
- 集成检测、分割和跟踪功能

YOLOv9

发布日期：2024年2月
作者/贡献者：WongKinYiu等
论文：YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
主要优化点：
- 可编程梯度信息(PGI)+广义高效层聚合网络(GELAN)。
- 与YOLOv8相比，其出色的设计使深度模型的参数数量减少了49%，计算量减少了43%，但在MS COCO数据集上仍有0.6%的AP改进。

YOLOv10

发布日期：2024年5月
作者：清华大学
论文：YOLOv10: Real-Time End-to-End Object Detection
主要优化点：
- 实时端到端的对象检测，主要在速度和性能方面的提升

YOLOv11

发布日期：2024年9月
作者：Ultralytics团队
无论文发表，开源地址：https://github.com/ultralytics/ultralytics
主要优化点：
- YOLOv11继承自YOLOv8，在YOLOv8基础上进行了改进，使同等精度下参数量降低20%，在速度和准确性方面具有无与伦比的性能。
- 其流线型设计使其适用于各种应用，并可轻松适应从边缘设备到云 API 等不同硬件平台。
- 使其成为各种物体检测与跟踪、实例分割、图像分类和姿态估计任务的绝佳选择。

总结

本文研究了YOLO系列目标检测模型的显着演变，从YOLOv6、YOLOv7 和 Y0L0v8等早期版本，到YOLO-NAS、YOL.0v9 和YOLO-NAS等突破性创新。最新版本YOL0v10 和YOLOv11。每次迭代都带来了速度、准确性和计算效率的进步，环固了YOL0 作为实时目标检测主导框架的地位。
YOLO的单级检测架构能够在医疗保健、白动驾驶、农业和工业自动化等不同且时问敏感的领域实现快速、高效的物体识别。
YOLO-NAS 引入了训练后量化 (PTQ)的关键创新，在不影响准确性的情况下优化了资源受限环境的模型。
YOLOv9 通过引入可编程梯度信息 (PGI )和通用高效层聚合网络 ( GELAN)等功能进一步增强了性能，使模型能够处理更复杂的检测任务，包括那些具有遮挡和复杂模式的检测任务。
YOLOv10 和YOLOv11的最新发展进一步突破了性能的界限。YOLOv10的C3k2模块和YOLOv11的具有空间注意力的跨阶段部分 (C2PSA)模块显着提高了模型检测小物体和遮挡物体的能力，同时保持计算效率。特别是， YOLOv11 成为基准测试中最准确、最高效的模型，在又罩检测、血细胞分析和自动驾驶汽车应用等任务中优于之前的版本。
Roboflow100、0bject365 和coco等数据集的综合基准测试证明了YOLOv9、YOLOv10和YOLOv11的明显优势，特别是在复杂的目标检测场景中。其中，YOLOv11 始终实现了最高性能，证实了其作为医疗保健、环境监测和自主系统等需要高精度的应用中实时检测任务的当前黄金标准的地位。在这里插入图片描述

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

一文解决Cellphonedb单细胞互作分析及可视化作图（2）

开放原子开发者工作坊

[工具使用]——时序图与UML类图

开放原子开发者工作坊

CTFHub技能树 Web-SQL注入详解

整数型注入我们输入 1不断尝试发现闭合方式就是 1 ，整数型存在两列order by 2存在两个注入点/?id=-1 union select 8,9爆库，当前数据库为sqli/?id=-1 union select 8,database()爆出所有表名,这里我们需要吧sqli转换为16进制/?id=-1 union select 8,group_concat(table_name) from i