训练过程
loss值长期卡在0.6~0.7
loss值长期卡在0.6~0.7代表着模型完全没能学习到任何信息
- 检查图片分类是否有误。
如无误
- 执行训练不稳定
是不是训练越久越好
不是,在loss显著降低后再训练10轮左右就可以停止了。
过拟合
条件
训练的时挺好,实际完全离谱
这种情况被称为【过拟合】。可能由于以下原因
epochs减小
训练数据补充
训练数据不同类别图片数量相近
seed更换
loss值几乎不降低
条件
如果满足以下所有条件
- 1分钟内有新的点出现
- 已完成的训练轮数超过100
- loss值未见显著升高(超过1)
- loss值未见显著波动
learning_rate提高
训练过慢
条件
如果满足以下所有条件
- 5分钟内图示没有数据点
- 下方日志没有
[Epoch xxx] Train Loss: xxx, Val Loss: xxx, Val Acc: xxx - 日志出现了
[Message] 开始训练模型 for xxx epochs on device xxx.
learning_rate提高
batch_size提高
训练不稳定
条件
如果满足以下任何条件
- loss值反复严重波动
- loss>1
如loss已经显著降低
训练终止
如未见显著降低
learning_rate减小
batch_size减小
训练数据补充