Ubuntu Server 24.04 NVIDIA驱动的bug
Ubuntu为了实现secure boot以及便于管理,将英伟达的驱动打包之后配合Linux modules签名,然后通过ubuntu-drivers提供,看起来,一切都很美好。
按照正流程安装:
sudo ubuntu-drivers install --gpgpu
在服务器上安装nvidia-headless-no-dkms-570-server
驱动sudo apt install nvidia-utils-570-server
安装了常用软件,包括nvidia-smi
- 输入
nvidia-smi
查看GPU信息,报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
。
然而,ubuntu-drivers-common
的包有个不大不小的bug:只安装nvidia-driver-no-dkms-<series>
,不安装linux-modules-nvidia
。本来就是no-dkms
,再加上缺少内核模块,注定无法正常工作。
Ubuntu其实在2024-10-07就已经发现这个问题了(1:0.9.7.6ubuntu3.1
),但是直到2025-03-11才修复这个问题并重新发布(1:0.9.7.6ubuntu3.2
)。但是,问题又来了,一直被推迟:
The following upgrades have been deferred due to phasing:
ubuntu-drivers-common
至于原因?不好意思,我们分批推送,但是还没有推送,因为还是有问题,已经被暂停并回滚了,至于修复版的修复版,你先等着吧:
ubuntu-drivers-common:
Installed: 1:0.9.7.6ubuntu3.1
Candidate: 1:0.9.7.6ubuntu3.2
Version table:
1:0.9.7.6ubuntu3.2 500 (phased 0%)
500 http://cn.archive.ubuntu.com/ubuntu noble-updates/main amd64 Packages
*** 1:0.9.7.6ubuntu3.1 100
100 /var/lib/dpkg/status
1:0.9.7.6ubuntu3 500
500 http://cn.archive.ubuntu.com/ubuntu noble/main amd64 Packages
想解决也很简单,把没有安装的包,手动安装linux-modules-nvidia-570-server-generic
,然后重启即可。