百度飞桨PicoDet 目标检测介绍

百度yolo目标检测，有开源模型作为布局分析，包括中文的表格

a64506青竹

406人浏览 · 2023-03-01 09:13:06

a64506青竹 · 2023-03-01 09:13:06 发布

4 head

4.1 cls分类信息

4.2 reg位置回归信息

Generalized Focal Loss

重点是边框回归的位置信息，这里和常规的Anchor box的回归方式不一样。采用的是Generalized Focal Loss 中的概率分布形式。

head_reg = self.add_sublayer(
    "head_reg" + str(i),
    nn.Conv2D(
        in_channels=self.feat_in_chan,
        out_channels=4 * (self.reg_max + 1),
        kernel_size=1,
        stride=1,
        padding=0,
        weight_attr=ParamAttr(initializer=Normal(
            mean=0., std=0.01)),
        bias_attr=ParamAttr(initializer=Constant(value=0))))

可以看到，输出的通道数是 4 * (self.reg_max + 1)，这个是怎么来的呢，reg_max又是什么意思？

直观的理解：预测的并不是一个固定的值，而是一段概率分布，以4点坐标边框形式（h,w,c_x,c_y）中的c_x为例，我将可能的预设的中心x的坐标范围假设是 0-18 中插入reg_max个分割点，假设是8个，那么x的预设范围就被划分为9段了 [x0,x1,x2...x8]， X0 = 0.0-2.0， x1 = 2.0-4.0 依次类推。每段的预测概率是P，最后的实际预测值就是sum (pi*xi) 。单个坐标需要的输出值就是 reg_max + 1， 4个坐标总的就是4 * (self.reg_max + 1)。这么做的好处详情可以查阅论文。

如果是cls和reg共用前面的卷积的话，最后的输出就是两边的输出通道数相加。

out_channels=self.cls_out_channels + 4 * (self.reg_max + 1)

参考：

PicoDet 网络结构及代码解析 - 哔哩哔哩

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

C#联合Halcon深度学习源代码分享1 预处理图像2图像识别测试3误差分析（含导入步骤文档，含中文注释）（附源码链接）

开放原子开发者工作坊

Git基础命令学习

git基础命令学习笔记git init 命令目录变成 Git 可以管理的仓库git add 把文件添加到仓库(可多次add不同的文件)git commit 把文件提交到仓库git satus 命令查看状态，可以让我们时刻掌握仓库当前的状态git diff可以看到指定文件的修改内容

开放原子开发者工作坊

SpringBoot01:Hello,World

开放原子开发者工作坊

所有评论(0)

查看更多评论

a64506青竹

@a645061612

已为社区贡献1条内容