使用阿里云服务器进行深度学习计算,主要分为以下几个步骤:选择合适的云服务器配置、部署环境、上传数据和代码、运行模型训练/推理任务、监控与优化资源使用。以下是详细指南:
一、选择合适的阿里云服务器(ECS)
1. 推荐实例类型:
-
GPU 实例:适合深度学习训练和推理。
- 常见型号:
ecs.gn6e-c8g1.2xlarge(NVIDIA V100)、ecs.gn5i-c4g1.xlarge(T4)等。 - GPU 提供更强的并行计算能力,适合训练大模型。
- 常见型号:
-
CPU 实例:适合小模型训练或推理任务。
- 如
ecs.c6.large等。
- 如
-
弹性裸金属服务器 / GPU 容器服务(ACK):适合大规模分布式训练。
2. 操作系统选择:
- 推荐:Ubuntu 20.04 或 22.04 LTS
- 其他可选:CentOS、Debian 等
二、购买并配置 ECS 实例
1. 购买 ECS
登录 阿里云控制台 → 选择“云服务器ECS” → 创建实例。
2. 配置建议:
- 地域选择离你最近的区域(如华北2-北京)
- 安全组开放端口(如 SSH 22、Jupyter Notebook 8888、TensorBoard 6006 等)
- 绑定公网 IP(用于远程访问)
- 系统盘建议 ≥ 100GB(SSD)
三、连接到服务器
你可以使用以下方式连接:
ssh root@你的公网IP
如果你使用密钥对登录,命令如下:
ssh -i ~/.ssh/id_rsa root@你的公网IP
四、安装深度学习环境
1. 更新系统
sudo apt update && sudo apt upgrade -y
2. 安装 Python 和虚拟环境
sudo apt install python3-pip python3-venv git -y
创建虚拟环境(推荐):
python3 -m venv dl_env
source dl_env/bin/activate
3. 安装 NVIDIA 驱动 & CUDA 工具包(仅GPU实例)
(1)添加 NVIDIA 驱动仓库
sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
sudo sh -c 'echo "deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64 /" > /etc/apt/sources.list.d/cuda.list'
sudo apt update
(2)安装驱动
sudo apt install nvidia-driver-470
注意:根据你的 GPU 类型选择合适的驱动版本。
(3)安装 CUDA Toolkit
sudo apt install cuda-toolkit-11-4
(4)安装 cuDNN(通过 pip 安装 PyTorch/TensorFlow 时会自动处理)
4. 安装深度学习框架
安装 PyTorch:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
安装 TensorFlow:
pip install tensorflow-gpu==2.12.0
注意:确保版本与 CUDA 版本兼容。
五、上传代码和数据
方法一:使用 scp 上传本地文件
scp -i ~/.ssh/id_rsa -r your_code_folder root@your_ip:/root/
方法二:使用 Git 项目克隆
git clone https://github.com/yourname/yourrepo.git
方法三:挂载 NAS 或 OSS 存储(适合大数据集)
阿里云提供 OSS 文件存储服务,可以挂载为本地目录,方便管理大型数据集。
六、运行深度学习任务
本地运行脚本:
python train.py
使用后台运行(防止断开SSH后中断):
nohup python train.py > train.log 2>&1 &
查看日志:
tail -f train.log
使用 Jupyter Notebook(推荐交互式开发)
安装:
pip install notebook
启动:
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
然后在浏览器中访问:http://你的公网IP:8888
七、监控和资源优化
查看 GPU 使用情况:
nvidia-smi
查看 CPU 内存使用:
top
设置自动关机节省费用(训练完成后):
sudo shutdown -h +60 # 60分钟后关机
八、进阶功能(可选)
- 使用阿里云容器服务 ACK + Kubernetes 进行分布式训练
- 使用 AutoML 工具(AutoGluon、Optuna)
- 使用 NAS 进行超参数搜索
- 部署模型为 API 服务(Flask/FastAPI)
九、费用控制建议
- 使用 按量付费 或 抢占式实例 可降低成本
- 训练结束后及时释放 GPU 实例
- 使用对象存储(OSS)代替高容量云盘存储数据
十、示例流程总结
# 登录服务器
ssh root@your_ip
# 创建虚拟环境
python3 -m venv dl_env
source dl_env/bin/activate
# 安装 PyTorch
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
# 上传代码
scp -r my_project root@your_ip:/root/
# 启动训练
cd my_project
python train.py
如需我帮你写一个完整的脚本模板或部署某个特定模型(如YOLO、ResNet、Transformer),也可以告诉我!
是否需要我为你生成一个一键部署脚本?
CLOUD技术博