我在尝试在配备 NVIDIA GPU 的 Dell PowerEdge XE9680 上运行 CUDA 应用程序时遇到问题。系统运行的是 Ubuntu 24.04,并且我安装了 NVIDIA 驱动程序版本 560.x 以及...
我在尝试在配备 NVIDIA GPU 的 Dell PowerEdge XE9680 上运行 CUDA 应用程序时遇到问题。系统运行的是 Ubuntu 24.04,我安装了 NVIDIA 驱动程序版本 560.x 以及 CUDA 12.6。但是,当我尝试从 CUDA 工具包运行 deviceQuery 示例时,我收到以下错误:
cudaGetDeviceCount returned 802
-> system not yet initialized
Result = FAIL
系统配置:
-
服务器型号:Dell PowerEdge(H100 GPU)
-
操作系统:Ubuntu 24.04
-
NVIDIA 驱动程序版本:560.x
-
CUDA 版本:12.6
我尝试过的步骤:
-
通过运行 nvidia-smi 验证 NVIDIA 驱动程序是否正确安装,它正确显示 GPU 和驱动程序版本。
-
重新安装了 NVIDIA 驱动程序和 CUDA 工具包以确保没有冲突或安装问题。
-
检查已安装的 CUDA 版本与 NVIDIA 驱动程序之间的兼容性。
-
使用 systemctl 重置 NVIDIA 驱动程序并手动重新加载内核模块。
-
重建 initramfs 并重新启动系统。
-
使用 lsmod | grep nvidia 验证 nvidia 内核模块是否正确加载。
尽管我做了这些努力,但在运行 CUDA 应用程序时,我仍然收到相同的错误。该错误表明系统尚未初始化,但我无法确定根本原因。
问题:
-
有没有人遇到过类似的问题,你采取了什么步骤来解决它?
-
是否有特定的日志或诊断可以更深入地了解 CUDA 无法正确初始化的原因?
-
这个问题是否与 Dell PowerEdge XE9680 上的特定配置有关,或者更可能与软件环境有关?
任何指导或建议都将不胜感激。如果需要,我愿意尝试其他故障排除步骤或提供更多信息。
CUDA 初始化错误:在使用 NVIDIA 驱动程序 560.x 和 CUDA 12.6 的 Ubuntu 24.04 上,cudaGetDeviceCount 返回 802
下载声明:
本站所有软件和资料均为软件作者提供或网友推荐发布而来,仅供学习和研究使用,不得用于任何商业用途。如本站不慎侵犯你的版权请联系我,我将及时处理,并撤下相关内容!