Lazy loaded image
Work Record
🔎梯度爆炸
字数 182阅读时长 1 分钟
2025-4-22
2025-4-27
password
comment
type
status
date
slug
summary
tags
category
icon
AI custom autofill

梯度爆炸

  1. 应检查何处的损失出现NaN
  1. 启用梯度裁剪
  1. 找出对应损失函数计算中何处出现NaN
  1. 检查整个网络输入侧,确保输入数据的合理范围。如:数据是否归一化
  1. 检查学习率、损失函数计算公式···发现其中可能导致梯度爆炸的计算过程
  1. 找出NaN携带NaN的变量,可以限制模型最后输出层/手动将其置为epsilon
  1. 查看一些损失,可能会有一项reduction,看是否将mean写成了sum
使用vscode 逐步debug,在调试控制台对可疑变量打印输出:
上一篇
项目哲学
下一篇
北京百日漂流

评论
Loading...