《深度学习》了解YOLO基本知识

YOLO（You Only Look Once）是一种基于深度学习的目标检测算法，由Joseph Redmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位置，例如下图所示。YOLO算法将输入图像分成SxS个网格，每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外，YOLO算法还采用了多尺度特征融合的技术，使得算法能够在

菜就多练_0828

2388人浏览 · 2024-10-22 01:45:00

菜就多练_0828 · 2024-10-22 01:45:00 发布

一、关于YOLO

1、什么是YOLO

YOLO（You Only Look Once）是一种基于深度学习的目标检测算法，由Joseph Redmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位置，例如下图所示。

YOLO算法将输入图像分成SxS个网格，每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外，YOLO算法还采用了多尺度特征融合的技术，使得算法能够在不同尺度下对目标进行检测。

关于不同尺度：例如在ResNet残差网络中，无论是18层的还是36层的，他们的输入图像的尺寸都是固定不变的，不能传入不同尺寸的图像，而YOLO算法可以传入任意大小的图片，对其进行检测。

相比于传统的目标检测算法，如R-CNN、Fast R-CNN和Faster R-CNN等，YOLO算法具有更快的检测速度和更高的准确率，这得益于其端到端训练方式和单阶段检测的特性，使其可以同时处理分类和定位任务，避免了传统方法中的多阶段处理过程。因此，YOLO算法广泛应用于实时目标检测和自动驾驶等领域。

关于端到端：

端到端的训练是模型直接从原始输入数据学习如何映射到最终的输出目标，而不需要在中间阶段进行人为的特征工程或分割成多个独立的处理模块。例如，以前的汽车自动驾驶，通过车上搭载的摄像头拍摄实时画面，将获取到的画面每一帧图像传入模型进行识别，然后对模型的输出结果进行判断，判断是哪种类别，是否需要减速转向，然后再执行相应的减速转弯等操作，二当前端到端的训练，摄像头的事实画面帧传入模型后，经过检测后直接执行减速转向灯的操作。

2、经典的检测方法

1）one-stage单阶段检测

YOLO系列、SSD

单阶段检测指在目标检测任务中，通过一个网络模型直接预测出物体的类别和位置。

优点：识别速度非常快，适合做实时检测任务

缺点：正确率相对two-stage较低，尤其在小物体和严重遮挡的情况下性能较差。

模型指标介绍：

mAP指标：用于评判目标检测效果，其值越大越好，在机器学习的分类任务

FLOPS：表示模型进行一次前向传播（即处理一张图像）所需要的浮点运算次数。它是一个衡量算法效率的关键指标，与模型的计算量和推断速度密切相关。

FPS：每秒可以处理的图像数量

2）two-stage多阶段检测

Faster-rcnn和mask-Rcnn系列

两阶段目标检测器是一种先生成候选框，然后对候选框进行分类和回归的检测方法。这种方法主要包括两个阶段：

第一阶段：生成候选框。这通常通过一个类似于Selective Search或EdgeBoxes等区域提名算法来实现，该算法从输入图像中生成多个候选框。每个候选框都会经过一个CNN模型进行特征提取，然后通过分类器进行过滤，保留与目标物体更相似的候选框。

第二阶段：在保留的候选框上进行精细的分类和回归。这个阶段通常使用另一个CNN模型或类似SVM的分类器来进行分类和回归。对于每个候选框，可能需要预测物体的类别、位置和大小等。代表性的两阶段目标检测器包括R-CNN系列，以及其改进版本Fast R-CNN、Faster R-CNN和Mask R-CNN等。

优点：正确率比较高，识别效果理想

缺点：识别速度比较慢，通常达到5FPS