Skip to content

训练过程

loss值长期卡在0.6~0.7

loss值长期卡在0.6~0.7代表着模型完全没能学习到任何信息

  • 检查图片分类是否有误。

如无误

是不是训练越久越好

不是,在loss显著降低后再训练10轮左右就可以停止了。

过拟合

条件

训练的时挺好,实际完全离谱

这种情况被称为【过拟合】。可能由于以下原因

epochs减小
训练数据补充
训练数据不同类别图片数量相近
seed更换

loss值几乎不降低

条件

如果满足以下所有条件

  • 1分钟内有新的点出现
  • 已完成的训练轮数超过100
  • loss值未见显著升高(超过1)
  • loss值未见显著波动
learning_rate提高

训练过慢

条件

如果满足以下所有条件

  • 5分钟内图示没有数据点
  • 下方日志没有
    [Epoch xxx] Train Loss: xxx, Val Loss: xxx, Val Acc: xxx
    
  • 日志出现了
    [Message] 开始训练模型 for xxx epochs on device xxx.
    
learning_rate提高
batch_size提高

训练不稳定

条件

如果满足以下任何条件

  • loss值反复严重波动
  • loss>1
如loss已经显著降低
训练终止
如未见显著降低
learning_rate减小
batch_size减小
训练数据补充