通告 欢迎访问爱刷机(原爱搜网、爱搜啊博客aisoa.cn)

Ubuntu在docker环境conda+pip环境使用nvidia cuda深度学习训练

2021-12-30
0评论
/
阅读
爱搜啊

Ubuntu上使用nvidia cuda进行深度学习训练推理

系统:

Ubuntu 18.04.5 LTS

ubuntu 20.04 LTS

方式一、使用conda+pip环境

安装步骤:

1、安装nvidia gpu driver:打开Ubuntu系统的 Software&Updates – Additional Drivers,搜索安装nvidia的proprietary驱动。(或者,也可以去nvidia官方网站下载 NVIDIA-Linux-x86_64-xxx.run 驱动文件手动安装)

2、安装Miniconda(或Anaconda),使用conda命令create并activate工作区,在工作区里安装cuda toolkit 和 cudnn。注意 cuda版本,从这里或这里查询:

conda create ... python=3.6
conda activate ...

# 需要注意,安装与tensorflow编译对应的cuda版本。这里假设将要安装tensorflow 1.15版本,对应使用cuda 10.0

conda install -c anaconda cudnn cudatoolkit=10.0

3、使用pip安装tensorflow-gpu

pip install tensorflow-gpu==1.15.4

4、测试

$ python    # 进入python解释器
>>> import tensorflow as tf
>>> tf.test.is_gpu_available()
>>> tf.test.gpu_device_name()

OK.

方式二、使用docker环境

1、安装nvidia gpu driver:同上面方法,安装nvidia显卡驱动。如果前面已经安装过,可跳过。

2、安装docker

Ubuntu安装docker命令

Ubuntu安装docker命令

3、安装nvidia-docker2

【更新:nvidia-docker2已经被nvidia-container-toolkit取代,见https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/overview.html

见官方: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html

#配置nvidia的源

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

#安装nvidia-docker2

sudo apt-get update
sudo apt-get install -y nvidia-docker2

# 重启docker服务

sudo systemctl restart docker

4、使用--gpus选项创建和运行docker container

sudo docker container run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

# 或者,使用tensorflow的docker测试:

sudo docker container run --rm --gpus all -t -i -u 0 tensorflow/tensorflow:2.3.1-gpu

#在docker里面:

$ python    # 进入python解释器
>>> import tensorflow as tf
>>> tf.test.is_gpu_available()
>>> tf.test.gpu_device_name()

5、可选。nvidia:cuda和machine-learning的apt mirror

腾讯:https://mirrors.cloud.tencent.com/的nvidia-cuda和nvidia-machine-learning

阿里:https://mirrors.aliyun.com/nvidia-cuda/

OK.

备忘:使用docker环境,安装nvidia提供的tensorflow镜像

公版tensorflow有的配置和特性没有打开(例如tensorflow1的tf-trt默认disabled)。

nvidia提供了一个docker container版本的tensorflow,里面配置了cuda环境、tensorrt等,建议使用nvidia提供的镜像。

https://docs.nvidia.com/deeplearning/frameworks/tensorflow-release-notes/index.html 

https://ngc.nvidia.com/catalog/containers/nvidia:tensorflow 

1~3. 同上述方式二的前三个步骤,安装docker和nvidia-docker2

不使用公版tensorflow,而是安装nvidia提供的tensorflow版本,其docker镜像在 https://ngc.nvidia.com/catalog/containers/nvidia:tensorflow

同上述方式二的第四步骤,使用--gpus选项创建和运行

conda install -c anaconda cudnn cudatoolkit=10.00

本站附件分享,如果附件失效,可以去找找看

诚通网盘附件百度网盘附件


饿了么红包

饿了么红包

于2021-12-30发布