pytorch的nn.module中input的四个维度含义以及实现各种操作

在使用pytorch的nn.module 的时候从使用说明上可以知道其标准输入为 [B, C, H, W]，其具体含义是：B - batchsize，例如你在使用dataloder的时候设置的batchsize是64那么此项则为64C - channel，也就是输入的矩阵的通道数，若你输入的是RGB图片，那么此项为3H - high，也就是你输入矩阵的高。W - width，也就是你输入矩阵的宽

深度瞎学

8233人浏览 · 2020-07-15 20:03:20

深度瞎学 · 2020-07-15 20:03:20 发布

在使用pytorch的nn.module 的时候从使用说明上可以知道其标准输入为 [B, C, H, W]，其具体含义是：

B - batchsize，例如你在使用dataloder的时候设置的batchsize是64那么此项则为64

C - channel，也就是输入的矩阵的通道数，若你输入的是RGB图片，那么此项为3

H - high，也就是你输入矩阵的高。

W - width，也就是你输入矩阵的宽

针对四个维度来达到你要实现的目标

由于数据在经过net后输出并不一定满足满足期望输出的大小，于是这个时候往往需要进行view或者reshape操作。以此达到期望输出。
例如我希望VGG的输出为自定义的H * W而不是直接铺开。那么我需要使用 x.reshape() ,其中第一个参数应设置为x.size(0),这是为了确保第一个保证batchsize，第二个可以设置为-1(自由铺开，防止报错)，第三个第四个参数设置为自定义的H * W。具体代码示例：

x = self.maxpool(F.leaky_relu(self.conv1_1(x)))
x = self.maxpool(F.leaky_relu(self.conv2_1(x)))
x = self.maxpool(F.leaky_relu(self.conv3_2(F.leaky_relu(self.conv3_1(x)))))
x = self.maxpool(F.leaky_relu(self.conv4_2(F.leaky_relu(self.conv4_1(x)))))
x = self.maxpool(F.leaky_relu(self.conv5_2(F.leaky_relu(self.conv5_1(x)))))
x = self.dropout(x)
x = x.view(x.size(0), 512 * 4 * 4)
x = F.leaky_relu(self.fc1(x))
x = F.leaky_relu(self.fc2(x))
x = x.reshape(x.size(0),-1, int(self.image_size[0]/2),int(self.image_size[1]/2))

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

【Spring Boot 】Spring Boot + HikariCP 连接池使用示例

文章目录示例工具版本HikariCP 依赖HikariCP 配置1. connectionTimeout2. minimumIdle3. maximumPoolSize4. idleTimeout5. maxLifetime6. autoCommitSpring Boot Data + HikariCP + MySQL示例测试应用程序1. 使用 Maven 命令2. 使用 Eclipse3. 使用