拿到一个新的容器之后,怎么创建一个独立的GPU训练环境呢?之前弄的时候总是零零散散的,现在把它总结在这里,供自己以及有需要的朋友查阅。

1. conda创建

1.1 下载anaconda

wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.07-Linux-x86_64.sh

具体的anaconda版本可以从这里获取,找到自己想要的版本,右击复制链接即可。

1.2 安装anaconda

bash Anaconda3-2020.07-Linux-x86_64.sh 

1.3 测试anaconda是否安装成功

conda --version

如果显示具体版本则安装成功;
如果显示:bash: conda: command not found…;则执行一下步骤:

export PATH=~/anaconda3/bin:$PATH
source ~/.bashrc

1.4 更新conda(非必须)

conda update -n base conda

2. Python虚拟环境创建

2.1 查看当前存在哪些环境

conda env list

2.2 创建新的虚拟环境

conda create -n your_env_name python=X.X(2.73.6等)

2.3 激活虚拟环境

在你使用环境之前,需要激活:

conda activate your_env_name

PS:在我们的任务中,执行到2.3即可,下述操作为Python虚拟环境下的一些操作方法,一并记录,内容参考自:[安装教程] linux创建conda虚拟环境

2.4 安装Python包

conda(或pip) install package_name

如果你创建的是python3.x的环境,也直接使用pip,不要使用pip3。因为此时的pip3可能会直接安装至你的系统环境里。

2.5 删除Python包

conda remove package_name (pip uninstall package_name)

2.6 关闭虚拟环境

虚拟环境使用完,需要关闭

conda deactivate

2.7 删除虚拟环境

conda remove -n your_env_name --all

2.8 共享环境包

将当前使用的环境中所包含的python包的名称进行打包

conda env export > 文件名.yaml

2.9 载入别人共享的环境包

conda env create -f 文件名.yaml

3. tensorflow GPU环境搭建

安装之前,首先要明确tensorflow,cuda,cudnn之间的版本关联,同时驱动版本也要满足要求(可通过nvidia-smi查看驱动版本,驱动版本对于cuda向下兼容)
可通过tensorflow版本关联查看对应的关联关系,如下图:
在这里插入图片描述

【本文以tf1.14-cuda10.0.0-cudnn7.4为例】

3.1 安装cuda

conda install cudatoolkit=10.0.0

3.2 安装cudnn

conda install cudnn=7.4

报错如下:

PackagesNotFoundError: The following packages are not available from current channels:

  - cudnn=7.4

Current channels:

  - https://repo.anaconda.com/pkgs/main/linux-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/linux-64
  - https://repo.anaconda.com/pkgs/r/noarch

当前conda源中并没有cudnn7.4版本。
因此,搜索 conda 源中可用的版本号:

conda search cudnn

得到结果如下:
在这里插入图片描述
可以看到,cudnn7.6.5同样支持cuda10.0.0,因此,直接安装cudnn7.6.5

conda install cudnn=7.6.5

3.3 安装tensorflow

conda install tensorflow-gpu=1.14.0

3.4 检查tensorflow gpu版本是否可用

import tensorflow as tf
print(tf.test.is_gpu_available())

返回结果为True表示tensorflow gpu版本可用:
在这里插入图片描述

3.5查看cuda,cudnn版本

整个安装过程到3.4就结束了,这一步非安装必须,供参考如何查看cuda,cudnn版本

import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.backends.cudnn.version())

参考:
[安装教程] linux创建conda虚拟环境
TensorFlow 安装与环境配置

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐