8wDlpd.png
8wDFp9.png
8wDEOx.png
8wDMfH.png
8wDKte.png

CUDA 初始化错误:在使用 NVIDIA 驱动程序 560.x 和 CUDA 12.6 的 Ubuntu 24.04 上,cudaGetDeviceCount 返回 802

emiley mille 2月前

13 0

我在尝试在配备 NVIDIA GPU 的 Dell PowerEdge XE9680 上运行 CUDA 应用程序时遇到问题。系统运行的是 Ubuntu 24.04,并且我安装了 NVIDIA 驱动程序版本 560.x 以及...

我在尝试在配备 NVIDIA GPU 的 Dell PowerEdge XE9680 上运行 CUDA 应用程序时遇到问题。系统运行的是 Ubuntu 24.04,我安装了 NVIDIA 驱动程序版本 560.x 以及 CUDA 12.6。但是,当我尝试从 CUDA 工具包运行 deviceQuery 示例时,我收到以下错误:

cudaGetDeviceCount returned 802
-> system not yet initialized
Result = FAIL

系统配置:

  • 服务器型号:Dell PowerEdge(H100 GPU)
  • 操作系统:Ubuntu 24.04
  • NVIDIA 驱动程序版本:560.x
  • CUDA 版本:12.6

我尝试过的步骤:

  1. 通过运行 nvidia-smi 验证 NVIDIA 驱动程序是否正确安装,它正确显示 GPU 和驱动程序版本。
  2. 重新安装了 NVIDIA 驱动程序和 CUDA 工具包以确保没有冲突或安装问题。
  3. 检查已安装的 CUDA 版本与 NVIDIA 驱动程序之间的兼容性。
  4. 使用 systemctl 重置 NVIDIA 驱动程序并手动重新加载内核模块。
  5. 重建 initramfs 并重新启动系统。
  6. 使用 lsmod | grep nvidia 验证 nvidia 内核模块是否正确加载。

尽管我做了这些努力,但在运行 CUDA 应用程序时,我仍然收到相同的错误。该错误表明系统尚未初始化,但我无法确定根本原因。

问题:

  1. 有没有人遇到过类似的问题,你采取了什么步骤来解决它?
  2. 是否有特定的日志或诊断可以更深入地了解 CUDA 无法正确初始化的原因?
  3. 这个问题是否与 Dell PowerEdge XE9680 上的特定配置有关,或者更可能与软件环境有关?

任何指导或建议都将不胜感激。如果需要,我愿意尝试其他故障排除步骤或提供更多信息。

帖子版权声明 1、本帖标题:CUDA 初始化错误:在使用 NVIDIA 驱动程序 560.x 和 CUDA 12.6 的 Ubuntu 24.04 上,cudaGetDeviceCount 返回 802
    本站网址:http://xjnalaquan.com/
2、本网站的资源部分来源于网络,如有侵权,请联系站长进行删除处理。
3、会员发帖仅代表会员个人观点,并不代表本站赞同其观点和对其真实性负责。
4、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5、站长邮箱:yeweds@126.com 除非注明,本帖由emiley mille在本站《ubuntu》版块原创发布, 转载请注明出处!
最新回复 (0)
返回
作者最近主题: