Lazy loaded image
🔎老代码调试日志
字数 1951阅读时长 5 分钟
2025-2-18
2025-3-5
password
comment
type
status
date
slug
summary
tags
category
icon
AI custom autofill
如题

由Tensorflow引出的CUDA与cuDNN问题

报错信息如下:
此处标红部分提到无法加载cuda11.0,我本身GPU为2080ti,系统安装的cuda版本截止到10.2。因此发现TF版本不匹配。
从源代码构建  |  TensorFlow(若是下图无法显示则参见该网页)
notion image
根据上图,安装一个python版本为3.8的环境,TF安装2.3.0
安装命令如下:
然后继续报错:
参见红字可知cuda10.1文件找不到
此处引申两种做法:
① 链接
TensorFlow 可能会尝试加载 libcudart.so.10.1,但你只有 libcudart.so.10.2。可以通过创建符号链接来解决这个问题:
注意:如果你没有管理员权限,可以将符号链接创建在你的用户目录下,例如:
然后将 ~/lib 添加到 LD_LIBRARY_PATH 中:
② conda安装
接下来同理,再次debug:
原来是上图对应表中的cuDNN版本也没对上号,继续安装:
最后,如下便成功了:

Keras

我的感受是,对于环境需要依赖Keras的代码,先无脑把导入包时的from keras.xxx import xxx全部改成from tensorflow.keras.xxx import xxx
 

TF-GPU的Debug代码

老代码

有些时候会因为pip的版本过老导致目标版本的pytorch/别的包无法找到🫠

善用try+except

参加这条issue:
建议作者加一段代码~
Updated Feb 19, 2025

Numpy & Pandas & Scipy Version log

查找二者版本对应关系,可进入官网查看每个版本的更新日期

安装卡顿 ?

直接去搜一个明确的版本,确切指定下载版本即可

conda查找可安装版本

NVIDIA-APEX安装

不同的文章介绍的apex的安装方法不尽相同~🫠🫠🫠至于怎样安装最有效,我也没试出来

设置调试配置json文件

👆上述配置在launch.json文件中,要使用该配置运行代码,按 F5
以上配置文件对应的命令行脚本为:

进入包中的代码调试配置

环境依赖相关

  • 修改python版本后安装环境依赖,导出的requirements.txt中大部分环境是不可用的。因为其中大部分依赖项与python版本强绑定
  • tensorflow的版本不一定需要照着cuda版本匹配表来,版本匹配属于玄学范畴(不照着来可能会成功,但照着来一遍必定会错一次🤬)
上一篇
后台挂起代码
下一篇
Json→黑白mask

评论
Loading...