在阿里云GPU服务器上搭建深度学习环境,可以按照以下步骤进行:
一、准备工作
-
选择GPU实例
- 登录阿里云控制台,选择ECS实例,推荐使用GPU规格(如
gn6v、gn7i等),根据需求选择显存大小(如V100、A100等)。 - 系统镜像建议选择 Ubuntu 20.04/22.04 或 CentOS 7.9/8(对NVIDIA驱动兼容性较好)。
- 登录阿里云控制台,选择ECS实例,推荐使用GPU规格(如
-
安全组配置
- 开放必要的端口(如SSH的22端口、Jupyter Notebook的8888端口等)。
-
挂载数据盘(可选)
- 如果训练数据量大,建议单独挂载云盘到
/data等目录。
- 如果训练数据量大,建议单独挂载云盘到
二、安装NVIDIA驱动
方法1:自动安装(推荐)
# 更新系统
sudo apt update && sudo apt upgrade -y
# 安装驱动(Ubuntu)
sudo apt install -y nvidia-driver-535 # 根据CUDA版本选择驱动版本
# 或使用自动检测安装:
sudo ubuntu-drivers autoinstall
# 重启服务器
sudo reboot
方法2:手动安装
# 查看推荐驱动版本
ubuntu-drivers devices
# 安装推荐版本
sudo apt install -y nvidia-driver-535-server # 示例版本
验证驱动:
nvidia-smi # 查看GPU状态
三、安装CUDA和cuDNN
1. 安装CUDA
# 下载CUDA 12.1(以Ubuntu 22.04为例)
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
# 安装CUDA
sudo sh cuda_12.1.0_530.30.02_linux.run
- 安装时取消勾选驱动(如果已安装),只选择CUDA Toolkit。
2. 配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
3. 安装cuDNN
- 从NVIDIA官网下载对应CUDA版本的cuDNN(需注册账号)。
# 示例:安装cuDNN 8.9 for CUDA 12.x tar -xvf cudnn-linux-x86_64-8.9.4.25_cuda12-archive.tar.xz sudo cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include sudo cp cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
四、安装Anaconda/Miniconda
# 下载Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 安装
bash Miniconda3-latest-Linux-x86_64.sh
source ~/.bashrc
# 创建虚拟环境
conda create -n dl python=3.9 -y
conda activate dl
五、安装深度学习框架
PyTorch
# 根据CUDA版本选择命令(CUDA 12.1示例)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
TensorFlow
# TensorFlow 2.x(CUDA 12)
pip install tensorflow[and-cuda]
# 或指定版本
pip install nvidia-cudnn-cu12==8.9.4.25 tensorflow==2.13.0
验证安装
# Python中测试
import torch
print(torch.cuda.is_available()) # 应返回True
import tensorflow as tf
print(tf.config.list_physical_devices('GPU')) # 应显示GPU信息
六、常用工具安装
# Jupyter Notebook
pip install jupyter
# 生成配置文件
jupyter notebook --generate-config
# 设置密码
jupyter notebook password
# 启动(可选后台运行)
nohup jupyter notebook --ip=0.0.0.0 --port=8888 &
七、环境优化建议
-
配置Swap空间(防止内存不足):
sudo fallocate -l 16G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile -
安装监控工具:
# GPU监控 pip install gpustat # 资源监控 sudo apt install htop -
持久化环境配置:
conda env export > environment.yaml # 导出环境 conda env create -f environment.yaml # 恢复环境
八、常见问题
-
NVIDIA驱动安装失败
- 禁用nouveau驱动:
sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nouveau.conf" sudo update-initramfs -u
- 禁用nouveau驱动:
-
CUDA版本不兼容
- 通过
nvidia-smi查看最高支持的CUDA版本,保持一致。
- 通过
-
权限问题
- 将用户加入
video组:sudo usermod -a -G video $USER
- 将用户加入
九、一键脚本示例
可保存为 setup_dl.sh 并执行:
#!/bin/bash
# 安装驱动
sudo apt update
sudo apt install -y nvidia-driver-535
# 安装CUDA
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run --silent --toolkit
# 安装Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh -b
source ~/.bashrc
# 创建环境
conda create -n dl python=3.9 -y
conda activate dl
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
通过以上步骤,即可在阿里云GPU服务器上快速搭建深度学习环境。根据实际需求调整版本和组件即可。
CLOUD技术笔记