这篇文章上次修改于 469 天前,可能其部分内容已经发生变化,如有疑问可询问作者。

前言

这里对最近几个月遇到的环境大坑做一下总结,以后可能还会用到或者供他人参考。

ESXi

失败 - 模块“DevicePowerOn”打开电源失败。

该问题请参考我的另一篇文章《VMWare ESXi 显卡直通(PCI设备直通)出现DevicePowerOn错误》

RHEL

使用现代化的操作系统及现代化的安装方式

1202年了,别再用编译安装了...
以及你可能是旧版系统的受害者(
《现代操作系统的现代显卡驱动安装方法》
两条命令解决的事情为啥要那么麻烦

关闭UEFI安全启动

错误样例:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

ESXi或PVE等虚拟化环境请自行前往控制台关闭相应VM的安全启动。
裸机请前往系统BIOS关闭安全启动。

Docker

基础环境配置

参考《GPU Docker 环境的配置与 Docker 相关注意事项》

不要忘记gpus参数

在启动GPU Dokcer容器的时候,不要忘记加"--gpus"参数,用法:
--gpus all

--gpus 0,1,2,3,4,···

使用半成品镜像快速进行环境部署

在docker容器中手动安装driver和cudnnlib是完全没必要且耗费时间的行为,可以使用NVIDIA-Cuda镜像库进行快速工业化部署及打包对应业务镜像。