该仓库包括三部分内容:
- 制作深度学习框架环境(GPU/CPU两个版本)镜像的Dockerfile文件;
- 创建和删除深度学习环境的脚本文件;
- 创建和删除用户数据存储目录的脚本问价;
- 升级集群工作节点的Nvidia GPU CUDA版本和深度学习框架版本;
- 优化K8S集群的深度学习环境的调度;
- 监控用户深度环境中的进程,若长时间无进程运行,则删除用户环境,释放资源;
- 支持深度学习分布式训练。
Repository from Github https://github.comHaroldMua/bdc-aicloud
该仓库包括三部分内容: