1. MobileNetV3 简介

在移动设备上运行深度学习模型面临着计算资源有限、功耗限制严格等诸多挑战。MobileNet 系列旨在通过设计高效的轻量级网络结构,在计算成本和模型性能之间取得最佳平衡,从而使深度学习模型在资源受限的环境中得到良好应用。MobileNetV3 作为该系列的最新版本,相较于 MobileNetV1 和 MobileNetV2 进行了多项创新与改进。它结合了神经架构搜索(Neural Architecture Search, NAS)和优化的卷积结构,进一步提升了网络的计算效率和推理速度。

在这里插入图片描述

MobileNetV3 相较于 MobileNetV2 有以下显著改进:

  • 硬激活函数(h-swish 和 h-sigmoid):传统的激活函数(如 ReLU)虽然简单,但并不能充分利用计算资源。MobileNetV3 引入了 h-swish 和 h-sigmoid,这些激活函数不仅能提高模型的非线性表达能力,同时还能减少计算复杂度,进而提升整体计算效率。
  • SE 模块(Squeeze-and-Excitation):SE 模块是一种注意力机制,用于对各通道的重要性进行加权,以便模型能够更有效地聚焦于有用特征。通过引入 SE 模块,MobileNetV3 在保持计算成本适中的情况下增强了对通道特征的表达能力,从而提高了模型的整体性能。
  • 深度可分离卷积和线性瓶颈:MobileNetV3 采用了深度可分离卷积和线性瓶颈结构,这种设计能够显著减少计算量和参数数量。深度可分离卷积将标准卷积分解为深度卷积和逐点卷积,显著减少了计算开销,而线性瓶颈则在保持模型表达能力的同时减小了特征维度。

此外,MobileNetV3 还结合了神经架构搜索技术,通过自动化地优化网络架构,选择最优的超参数和模块组合,从而实现了在多种移动端设备上具有极高的推理效率和较高的准确率。

也就是说,MobileNetV3 实现了在模型精度与计算效率之间的优异平衡,使其非常适合在边缘计算设备上进行高效推理。尤其是在智能手机、无人机、嵌入式系统等场景中,MobileNetV3 的出色表现使其成为工业界和学术界的重要参考模型。


2. 网络架构详细介绍

MobileNetV3 是一种轻量化神经网络架构,专为移动设备和嵌入式系统的计算限制而设计。其网络架构在 MobileNetV2 的基础上进一步优化,通过创新的模块和函数提升了模型的效率和性能。MobileNetV3 采用了多种先进的技术,如硬激活函数、SE 模块以及新型的 Inverted Residual 结构,这些核心组件使其在保证精度的同时显著减少了计算量。

2.1 硬激活函数 (h-swish 和 h-sigmoid)

在移动端部署时,计算资源的限制要求激活函数既高效又能够保留足够的非线性特征。MobileNetV3 引入了两种优化的激活函数:h-swish 和 h-sigmoid,这些函数不仅计算开销较低,还保留了类似 ReLU 激活的优点,确保模型具有良好的非线性表示能力。

在这里插入图片描述

  • h-swish:该激活函数的形式为 h-swish(x) = x * ReLU6(x + 3) / 6。其核心思想是在输入上添加一个常数偏移量,然后进行修正。ReLU6 函数将输入值截断在 [0, 6] 区间内,确保输出的范围有界,从而提升数值稳定性。h-swish 的优点在于它在保留 ReLU 的部分非线性特征的同时,实现了一个更平滑的过渡,从而减少了梯度消失的可能性。这种设计在轻量级模型中尤为重要,因为它优化了模型的前向传播时间和内存使用。

    class hswish(nn.Module):
        def forward(self, x):
            out = x * F.relu6(x + 3, inplace=True) / 6
            return out
    
  • h-sigmoid:与 h-swish 类似,h-sigmoid 通过 ReLU6 实现了近似于 Sigmoid 的平滑激活效果。其定义为 h-sigmoid(x) = ReLU6(x + 3) / 6。在保持计算效率的同时,h-sigmoid 提供了一种更为平滑的激活方式,有助于模型在推理阶段快速计算输出。这一改进使得 MobileNetV3 更适合在移动端等低功耗设备上运行。

在这里插入图片描述

class hsigmoid(nn.Module):
    def forward(self, x):
        out = F.relu6(x + 3, inplace=True) / 6
        return out

这些硬激活函数的设计思路在于保持模型的非线性表达能力,同时通过简化计算步骤显著降低开销,使其更加适合移动设备上的高效推理任务。

2.2 SE 模块的引入

SE(Squeeze-and-Excitation)模块是 MobileNetV3 的另一个关键组件,它通过对每一个通道的特征进行自适应加权来提升模型的表现力。在经典的卷积神经网络中,不同通道的特征重要性可能不尽相同,而 SE 模块通过自动学习这些特征的重要性权重,增强了网络的表征能力。

在这里插入图片描述

  • SE 模块的工作原理:SE 模块首先通过全局自适应平均池化将每个通道的特征进行全局压缩,这一步骤提取了全局的空间信息,并将其缩放至 1×1 的特征图(即每个通道的全局平均值)。随后,使用 1×1 卷积层对通道进行压缩(减少特征维度),再通过激活函数(ReLU)增加非线性表达能力。接着,通过另一层 1×1 卷积还原通道维度,并使用 Hardsigmoid 激活函数生成每个通道的加权系数。最终,这些权重被用于调整输入特征图的每个通道,放大重要特征,抑制不重要特征。

    class SeModule(nn.Module):
        def __init__(self, in_size, reduction=4):
            super(SeModule, self).__init__()
            expand_size = max(in_size // reduction, 8)
            self.se = nn.Sequential(
                nn.AdaptiveAvgPool2d(1),
                nn.Conv2d(in_size, expand_size, kernel_size=1, bias=False),
                nn.BatchNorm2d(expand_size),
                nn.ReLU(inplace=True),
                nn.Conv2d(expand_size, in_size, kernel_size=1, bias=False),
                nn.Hardsigmoid()
            )
        
        def forward(self, x):
            return x * self.se(x)
    

通过这种方式,SE 模块实现了对通道特征的自适应重加权,使得网络能够更好地关注有用的特征区域,从而提高检测和分类任务中的准确性。SE 模块的引入使 MobileNetV3 在保持轻量化的同时,拥有了更强的表达能力,适用于多种视觉任务场景。

这些创新模块的引入,使得 MobileNetV3 能在资源受限的环境中(如移动设备或嵌入式系统)高效执行,同时不牺牲模型精度。这也是 MobileNetV3 在众多轻量级模型架构中脱颖而出的原因。

2.3 Block 模块的模块化设计

MobileNetV3 通过模块化设计的 Block 结构实现了高效的特征提取与表示,这些 Block 是网络的核心构建单元。每个 Block 由多个子组件组成,包括扩展卷积(Expansion)、深度可分离卷积(Depthwise Separable Convolution)、线性瓶颈(Linear Bottleneck),以及可选的 SE 模块。这种设计思路旨在以最小的计算开销实现最大的特征表示能力,使网络能够在各种资源受限的设备上高效运行。

(1)Block 模块代码实现

MobileNetV3 的 Block 模块结合了几种关键的卷积操作和模块,用于增强模型的表达能力并降低计算复杂度:

在这里插入图片描述

  • 扩展卷积 (Expansion):在输入特征图进入 Block 模块后,首先通过 1x1 卷积扩展其通道数。这一步骤的目的是增加特征表示的维度,为后续的深度可分离卷积提供更丰富的特征信息。
  • 深度可分离卷积 (Depthwise Separable Convolution):这是 MobileNet 系列的核心卷积技术,通过将标准卷积分解为深度卷积(对每个输入通道分别进行卷积)和逐点卷积(1x1 卷积,融合通道信息)两部分,显著减少了参数量和计算量。MobileNetV3 在此基础上结合了 SE 模块和激活函数,使每个 Block 在参数效率和特征提取能力之间达到平衡。
  • SE 模块 (Squeeze-and-Excitation):通过自适应地对每个通道的特征进行加权,SE 模块提升了模型对有用特征的选择性,使网络能够更精准地关注重要特征区域。
  • 跳跃连接 (Skip Connection):当输入和输出特征图尺寸一致时,Block 模块将使用跳跃连接机制(Residual Connection)来保留输入特征,并与输出结果进行叠加。这种设计不仅有助于缓解梯度消失问题,还能促进深层网络的特征复用,从而提升模型的训练效率和性能。

在这里插入图片描述

以下是 Block 模块的代码实现:

class Block(nn.Module):
    '''expand + depthwise + pointwise'''
    def __init__(self, kernel_size, in_size, expand_size, out_size, act, se, stride):
        super(Block, self).__init__()
        self.stride = stride

        # 扩展卷积
        self.conv1 = nn.Conv2d(in_size, expand_size, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(expand_size)
        self.act1 = act(inplace=True)

        # 深度卷积
        self.conv2 = nn.Conv2d(expand_size, expand_size, kernel_size=kernel_size, stride=stride, padding=kernel_size//2, groups=expand_size, bias=False)
        self.bn2 = nn.BatchNorm2d(expand_size)
        self.act2 = act(inplace=True)
        
        # SE 模块
        self.se = SeModule(expand_size) if se else nn.Identity()

        # 逐点卷积
        self.conv3 = nn.Conv2d(expand_size, out_size, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(out_size)
        self.act3 = act(inplace=True)

        # 跳跃连接
        self.skip = None
        if stride == 1 and in_size != out_size:
            self.skip = nn.Sequential(
                nn.Conv2d(in_size, out_size, kernel_size=1, bias=False),
                nn.BatchNorm2d(out_size)
            )

        if stride == 2 and in_size != out_size:
            self.skip = nn.Sequential(
                nn.Conv2d(in_channels=in_size, out_channels=in_size, kernel_size=3, groups=in_size, stride=2, padding=1, bias=False),
                nn.BatchNorm2d(in_size),
                nn.Conv2d(in_size, out_size, kernel_size=1, bias=True),
                nn.BatchNorm2d(out_size)
            )

        if stride == 2 and in_size == out_size:
            self.skip = nn.Sequential(
                nn.Conv2d(in_channels=in_size, out_channels=out_size, kernel_size=3, groups=in_size, stride=2, padding=1, bias=False),
                nn.BatchNorm2d(out_size)
            )

    def forward(self, x):
        skip = x

        # 扩展卷积 -> 深度卷积 -> SE 模块 -> 逐点卷积
        out = self.act1(self.bn1(self.conv1(x)))
        out = self.act2(self.bn2(self.conv2(out)))
        out = self.se(out)
        out = self.bn3(self.conv3(out))
        
        # 跳跃连接
        if self.skip is not None:
            skip = self.skip(skip)
        return self.act3(out + skip)

(2)模块化设计的优势

这种模块化设计不仅提升了模型的灵活性,还使得网络能够根据不同计算需求和任务复杂度进行调整。通过改变 Block 的数量、通道数和参数设置,MobileNetV3 可以在速度和精度之间灵活平衡,以适应不同的应用场景。此外,这种设计方式允许对模型进行微调和优化,使其在推理过程中达到更高的效率和精度。

MobileNetV3 的 Block 设计通过结合扩展卷积、深度可分离卷积、SE 模块和跳跃连接,实现了模型在移动设备上高效且精准的推理。它在维持轻量化的前提下,最大程度上增强了网络的表达能力,这也是 MobileNetV3 能在多种计算受限环境下优异表现的核心所在。


3. MobileNetV3 的网络实现

MobileNetV3 分为 MobileNetV3_SmallMobileNetV3_Large 两个版本。以下是两者的代码详细解析以及它们在网络结构上的区别。

在这里插入图片描述

3.1 MobileNetV3_Small 结构解析

MobileNetV3_Small 通过轻量化的设计和模块化的 Block 结构,使其在资源受限设备上具有优异的表现。下面是其结构的详细解析。

class MobileNetV3_Small(nn.Module):
    def __init__(self, num_classes=1000, act=nn.Hardswish):
        super(MobileNetV3_Small, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=2, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(16)
        self.hs1 = act(inplace=True)

        self.bneck = nn.Sequential(
            Block(3, 16, 16, 16, nn.ReLU, True, 2),
            Block(3, 16, 72, 24, nn.ReLU, False, 2),
            Block(3, 24, 88, 24, nn.ReLU, False, 1),
            Block(5, 24, 96, 40, act, True, 2),
            Block(5, 40, 240, 40, act, True, 1),
            Block(5, 40, 240, 40, act, True, 1),
            Block(5, 40, 120, 48, act, True, 1),
            Block(5, 48, 144, 48, act, True, 1),
            Block(5, 48, 288, 96, act, True, 2),
            Block(5, 96, 576, 96, act, True, 1),
            Block(5, 96, 576, 96, act, True, 1),
        )

        self.conv2 = nn.Conv2d(96, 576, kernel_size=1, stride=1, padding=0, bias=False)
        self.bn2 = nn.BatchNorm2d(576)
        self.hs2 = act(inplace=True)
        self.gap = nn.AdaptiveAvgPool2d(1)

        self.linear3 = nn.Linear(576, 1280, bias=False)
        self.bn3 = nn.BatchNorm1d(1280)
        self.hs3 = act(inplace=True)
        self.drop = nn.Dropout(0.2)
        self.linear4 = nn.Linear(1280, num_classes)
        self.init_params()

在这里插入图片描述

  • 初始卷积层

    self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=2, padding=1, bias=False)
    self.bn1 = nn.BatchNorm2d(16)
    self.hs1 = act(inplace=True)
    

    网络首先使用一个 3x3 的卷积将输入图像的通道数从 3 扩展到 16,步长为 2。这个操作有效地减少了空间尺寸,并通过 BatchNormh-swish 激活函数规范化输出并增加非线性表达。

  • 瓶颈结构 (Bottleneck Blocks)

    self.bneck = nn.Sequential(
        Block(3, 16, 16, 16, nn.ReLU, True, 2),
        Block(3, 16, 72, 24, nn.ReLU, False, 2),
        ...
        Block(5, 96, 576, 96, act, True, 1),
    )
    

    这些 Block 通过扩展卷积、深度可分离卷积和 SE 模块组成:

    • 第一个 Block 通过步长为 2 的 3x3 深度卷积下采样。
    • 随后的 Block 逐步扩展通道数,并通过 5x5 卷积核扩大感受野。
    • act 可以是 h-swishReLU,SE 模块根据需要选择性地使用,以增强模型对特征的选择性。
  • 中间卷积和全局池化

    self.conv2 = nn.Conv2d(96, 576, kernel_size=1, stride=1, padding=0, bias=False)
    self.bn2 = nn.BatchNorm2d(576)
    self.hs2 = act(inplace=True)
    self.gap = nn.AdaptiveAvgPool2d(1)
    

    使用 1x1 卷积扩展通道数到 576,随后通过全局平均池化将特征图压缩为 1x1

  • 全连接层与分类输出

    self.linear3 = nn.Linear(576, 1280, bias=False)
    self.bn3 = nn.BatchNorm1d(1280)
    self.hs3 = act(inplace=True)
    self.drop = nn.Dropout(0.2)
    self.linear4 = nn.Linear(1280, num_classes)
    

    线性层扩展特征维度至 1280,激活后使用 Dropout 进行正则化,并通过最终的线性层输出分类结果。

3.2 MobileNetV3_Large 结构解析

MobileNetV3_Large 在架构上延续了 MobileNetV3_Small 的设计,但在计算量和复杂度上有更高的配置。

class MobileNetV3_Large(nn.Module):
    def __init__(self, num_classes=1000, act=nn.Hardswish):
        super(MobileNetV3_Large, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=2, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(16)
        self.hs1 = act(inplace=True)

        self.bneck = nn.Sequential(
            Block(3, 16, 16, 16, nn.ReLU, False, 1),
            Block(3, 16, 64, 24, nn.ReLU, False, 2),
            Block(3, 24, 72, 24, nn.ReLU, False, 1),
            Block(5, 24, 72, 40, nn.ReLU, True, 2),
            Block(5, 40, 120, 40, nn.ReLU, True, 1),
            Block(5, 40, 120, 40, nn.ReLU, True, 1),
            Block(3, 40, 240, 80, act, False, 2),
            Block(3, 80, 200, 80, act, False, 1),
            Block(3, 80, 184, 80, act, False, 1),
            Block(3, 80, 184, 80, act, False, 1),
            Block(3, 80, 480, 112, act, True, 1),
            Block(3, 112, 672, 112, act, True, 1),
            Block(5, 112, 672, 160, act, True, 2),
            Block(5, 160, 672, 160, act, True, 1),
            Block(5, 160, 960, 160, act, True, 1),
        )

        self.conv2 = nn.Conv2d(160, 960, kernel_size=1, stride=1, padding=0, bias=False)
        self.bn2 = nn.BatchNorm2d(960)
        self.hs2 = act(inplace=True)
        self.gap = nn.AdaptiveAvgPool2d(1)
        
        self.linear3 = nn.Linear(960, 1280, bias=False)
        self.bn3 = nn.BatchNorm1d(1280)
        self.hs3 = act(inplace=True)
        self.drop = nn.Dropout(0.2)

        self.linear4 = nn.Linear(1280, num_classes)
        self.init_params()
  • 瓶颈结构的差异

    • MobileNetV3_Small 类似,MobileNetV3_Large 通过多个 Block 组合特征提取,但每个 Block 的通道数和卷积核配置更加复杂,以适应更高的计算和精度需求。例如:
      Block(5, 160, 960, 160, act, True, 1)
      
      使用更大卷积核(如 5x5)和更多通道数来增加模型的容量。
  • 最终卷积层和全连接层

    • 1x1 卷积扩展至 960 通道后,通过 GAP 和一系列线性层将特征维度扩展至 1280,再输出最终的分类结果。

3.3 参数初始化

MobileNetV3 通过 init_params 方法确保模型在训练过程中有良好的初始化:

def init_params(self):
    for m in self.modules():
        if isinstance(m, nn.Conv2d):
            init.kaiming_normal_(m.weight, mode='fan_out')
            if m.bias is not None:
                init.constant_(m.bias, 0)
        elif isinstance(m, nn.BatchNorm2d):
            init.constant_(m.weight, 1)
            init.constant_(m.bias, 0)
        elif isinstance(m, nn.Linear):
            init.normal_(m.weight, std=0.001)
            if m.bias is not None:
                init.constant_(m.bias, 0)

这种初始化方法采用 Kaiming Normal 和零偏置,对卷积层、批归一化层和线性层进行初始化,从而确保网络在训练初期具有合理的权重分布和梯度更新。

通过解析 MobileNetV3_SmallMobileNetV3_Large 的结构,可以看到 MobileNetV3 在设计上通过模块化和配置灵活性实现了高效的特征提取和轻量化计算。这使得它在移动设备和嵌入式设备上表现尤为出色,能够在多种应用场景中取得精度和计算效率之间的平衡。


4. 测试与结果展示

为了展示 MobileNetV3 在图像分类任务中的性能,我们设计了以下测试代码,涵盖了模型的加载、图像的预处理、推理过程以及结果的可视化。通过这些步骤,我们可以更直观地理解 MobileNetV3 的实际推理能力和表现。

import torch
from torchvision import transforms
from PIL import Image, ImageDraw, ImageFont
from mobilenetv3 import MobileNetV3_Small, MobileNetV3_Large

4.1 模型加载

首先,我们定义一个 load_model 函数,用于加载 MobileNetV3 的预训练模型。该函数根据传入的 model_type 参数(‘small’ 或 ‘large’)决定加载 MobileNetV3_SmallMobileNetV3_Large 版本的模型。我们使用 torch.load 函数加载预训练权重,并将模型设为评估模式 (eval())。

def load_model(model_type='small', model_path='450_act3_mobilenetv3_small.pth'):
    if model_type == 'small':
        model = MobileNetV3_Small()
    elif model_type == 'large':
        model = MobileNetV3_Large()
    else:
        raise ValueError("model_type must be 'small' or 'large'")

    model.load_state_dict(torch.load(model_path, map_location='cpu'))
    model.eval()
    return model
  • model_type:决定加载哪个版本的模型,支持 ‘small’ 和 ‘large’ 两种类型。
  • model.load_state_dict:加载模型的权重,默认在 CPU 上运行。
  • model.eval():将模型设置为评估模式,这一步骤在推理时非常重要,它会关闭模型中的 dropout 和 batch normalization 的训练特性,确保输出稳定。

4.2 图像预处理

为了使输入图像符合模型的输入要求,我们定义了 preprocess_image 函数,对输入图像进行变换。这里使用了 torchvision.transforms 进行了一系列标准的图像预处理,包括缩放、中心裁剪、归一化等。

def preprocess_image(image_path):
    transform = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    image = Image.open(image_path).convert('RGB')
    return transform(image).unsqueeze(0), image  # 返回张量和原始图像
  • ResizeCenterCrop:将输入图像调整到 224x224 的尺寸,这是 MobileNetV3 模型预期的输入大小。
  • ToTensor:将 PIL 图像转换为张量,并将像素值归一化到 [0, 1] 范围。
  • Normalize:使用 ImageNet 数据集的均值和标准差对图像进行标准化处理,使模型能够更稳定地推理。

4.3 标签加载

为了能将模型的输出与具体类别对应,我们使用 load_labels 函数加载包含类别标签的文件。

def load_labels(labels_path='imagenet_classes.txt'):
    with open(labels_path, 'r') as f:
        labels = [line.strip() for line in f.readlines()]
    return labels

该函数从 imagenet_classes.txt 文件中读取类别标签,每行代表一个类别。

4.4 推理与结果展示

predict_and_display 函数整合了上述步骤,通过加载模型、预处理图像、进行推理,并最终在图像上显示预测结果。

def predict_and_display(image_path, model_type='small', model_path='450_act3_mobilenetv3_small.pth',
                        labels_path='imagenet_classes.txt'):
    # 加载模型和标签
    model = load_model(model_type, model_path)
    labels = load_labels(labels_path)

    # 预处理图像
    image_tensor, original_image = preprocess_image(image_path)

    # 进行推理
    with torch.no_grad():
        outputs = model(image_tensor)
        _, predicted = torch.max(outputs, 1)

    # 获取预测类别名称
    predicted_class = labels[predicted.item()]
    print(f'Predicted class: {predicted_class}')

    # 在图像上显示预测结果
    draw = ImageDraw.Draw(original_image)
    font = ImageFont.load_default()
    text = f'Prediction: {predicted_class}'

    # 计算文本的边界框
    bbox = draw.textbbox((0, 0), text, font=font)
    text_width = bbox[2] - bbox[0]
    text_height = bbox[3] - bbox[1]

    image_width, image_height = original_image.size
    text_x = (image_width - text_width) // 2
    text_y = image_height - text_height - 20  # 底部边缘上方留出一些空间

    # 创建一个半透明的背景
    background = Image.new('RGBA', original_image.size, (0, 0, 0, 0))
    bg_draw = ImageDraw.Draw(background)
    bg_draw.rectangle(
        [(text_x - 10, text_y - 5), (text_x + text_width + 10, text_y + text_height + 5)],
        fill=(0, 0, 0, 150)  # 半透明黑色
    )

    # 将背景叠加到原始图像上
    combined = Image.alpha_composite(original_image.convert('RGBA'), background)

    # 绘制文本
    draw = ImageDraw.Draw(combined)
    draw.text((text_x, text_y), text, fill="white", font=font)

    # 显示图片
    combined.show()
  • 推理

    with torch.no_grad():
        outputs = model(image_tensor)
        _, predicted = torch.max(outputs, 1)
    

    在推理阶段,我们使用 torch.no_grad() 关闭梯度计算,以提高效率并减少内存使用。模型输出是一个类别的概率分布,通过 torch.max 获取最高概率对应的类别索引。

  • 结果可视化

    • 在原始图像上绘制预测结果时,我们创建一个半透明的背景来确保文本清晰可见,然后将预测结果显示在图像上。
  • 这里通过输入一个图像路径 (bird.jpeg),模型类型为 ‘small’ 版本,模型权重路径为 '450_act3_mobilenetv3_small.pth',测试并显示预测结果。

# 示例使用
image_path = 'bird.jpeg'
predict_and_display(image_path, model_type='small', model_path='450_act3_mobilenetv3_small.pth',
                    labels_path='imagenet_classes.txt')

通过随机输入图像进行测试,模型输出为一组类别概率分布,并选择最高概率的类别作为预测结果。效果如下图所示

在这里插入图片描述

修改图片路径还有下面的测试结果:

在这里插入图片描述

在这里插入图片描述


总结与展望

MobileNetV3 在资源受限的移动设备上实现了良好的性能,兼顾了计算效率和分类精度。它在实际应用中表现出色,尤其适用于需要低功耗和快速推理的场景,例如智能手机、边缘设备和嵌入式系统。

未来的优化方向可能包括进一步结合神经架构搜索(NAS)技术,探索更为高效的卷积结构,同时继续优化硬件上的部署性能,以应对越来越复杂的边缘计算需求。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐