如何在阿里云GPU服务器上搭建深度学习环境?

在阿里云GPU服务器上搭建深度学习环境,可以按照以下步骤进行:


一、准备工作

  1. 选择GPU实例

    • 登录阿里云控制台,选择ECS实例,推荐使用GPU规格(如 gn6vgn7i 等),根据需求选择显存大小(如V100、A100等)。
    • 系统镜像建议选择 Ubuntu 20.04/22.04CentOS 7.9/8(对NVIDIA驱动兼容性较好)。
  2. 安全组配置

    • 开放必要的端口(如SSH的22端口、Jupyter Notebook的8888端口等)。
  3. 挂载数据盘(可选)

    • 如果训练数据量大,建议单独挂载云盘到 /data 等目录。

二、安装NVIDIA驱动

方法1:自动安装(推荐)

# 更新系统
sudo apt update && sudo apt upgrade -y

# 安装驱动(Ubuntu)
sudo apt install -y nvidia-driver-535  # 根据CUDA版本选择驱动版本
# 或使用自动检测安装:
sudo ubuntu-drivers autoinstall

# 重启服务器
sudo reboot

方法2:手动安装

# 查看推荐驱动版本
ubuntu-drivers devices

# 安装推荐版本
sudo apt install -y nvidia-driver-535-server  # 示例版本

验证驱动

nvidia-smi  # 查看GPU状态

三、安装CUDA和cuDNN

1. 安装CUDA

# 下载CUDA 12.1(以Ubuntu 22.04为例)
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run

# 安装CUDA
sudo sh cuda_12.1.0_530.30.02_linux.run
  • 安装时取消勾选驱动(如果已安装),只选择CUDA Toolkit。

2. 配置环境变量

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

3. 安装cuDNN

  • 从NVIDIA官网下载对应CUDA版本的cuDNN(需注册账号)。
    # 示例:安装cuDNN 8.9 for CUDA 12.x
    tar -xvf cudnn-linux-x86_64-8.9.4.25_cuda12-archive.tar.xz
    sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
    sudo cp cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

四、安装Anaconda/Miniconda

# 下载Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 安装
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc

# 创建虚拟环境
conda create -n dl python=3.9 -y
conda activate dl

五、安装深度学习框架

PyTorch

# 根据CUDA版本选择命令(CUDA 12.1示例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

TensorFlow

# TensorFlow 2.x(CUDA 12)
pip install tensorflow[and-cuda]
# 或指定版本
pip install nvidia-cudnn-cu12==8.9.4.25 tensorflow==2.13.0

验证安装

# Python中测试
import torch
print(torch.cuda.is_available())  # 应返回True

import tensorflow as tf
print(tf.config.list_physical_devices('GPU'))  # 应显示GPU信息

六、常用工具安装

# Jupyter Notebook
pip install jupyter
# 生成配置文件
jupyter notebook --generate-config
# 设置密码
jupyter notebook password
# 启动(可选后台运行)
nohup jupyter notebook --ip=0.0.0.0 --port=8888 &

七、环境优化建议

  1. 配置Swap空间(防止内存不足):

    sudo fallocate -l 16G /swapfile
    sudo chmod 600 /swapfile
    sudo mkswap /swapfile
    sudo swapon /swapfile
  2. 安装监控工具

    # GPU监控
    pip install gpustat
    # 资源监控
    sudo apt install htop
  3. 持久化环境配置

    conda env export > environment.yaml  # 导出环境
    conda env create -f environment.yaml  # 恢复环境

八、常见问题

  1. NVIDIA驱动安装失败

    • 禁用nouveau驱动:
      sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nouveau.conf"
      sudo update-initramfs -u
  2. CUDA版本不兼容

    • 通过 nvidia-smi 查看最高支持的CUDA版本,保持一致。
  3. 权限问题

    • 将用户加入video组:
      sudo usermod -a -G video $USER

九、一键脚本示例

可保存为 setup_dl.sh 并执行:

#!/bin/bash
# 安装驱动
sudo apt update
sudo apt install -y nvidia-driver-535
# 安装CUDA
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run --silent --toolkit
# 安装Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b
source ~/.bashrc
# 创建环境
conda create -n dl python=3.9 -y
conda activate dl
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

通过以上步骤,即可在阿里云GPU服务器上快速搭建深度学习环境。根据实际需求调整版本和组件即可。

云服务器