求助--目标计数模型训练过程中存在的问题

50 阅读2分钟

1.验证集中对每张图片的预测通常是类似的结果,之间相差不超过1,而且通常是小数点后面的差异,有时候完全一样,甚至在之后的每个epoch结果都类似。比如epoch1中,无论是数量是20还是200,预测结果基本都是100,100.2,100.3这样。epoch2也一样。检查过梯度,没出现消失或者是爆炸。
2.同样的现象也出现在评估指标MAE和RMSE。训练集MAE和RMSE,虽说不好,但有明显变化,验证集的MAE和RMSE也基本不变,情况同1。
3.预测出的结果常常是负数或0,也基本都出现在验证集。训练集很少出现负数的结果。
4.baseline没问题,加入的模块是别人的论文提供的github官方代码里面的(学术裁缝,研一刚接触还在摸索),除了通道等参数外,结构没有改变。里面涉及到激活函数,用ReLU(被人模块里原本的)的话,结果就成全0张量了(因为ReLU之前的结果就是全负数张量),最后预测结果也会是0.用Sigmod的话,就有变成了前面几个问题。我的数据,在别人的模型中用那个模块处理出来张量就没问题(不是负数,不是全0),最后的预测结果也还算正常。到我这就不行。已经试了好多模块了,也改过网络架构,但都是这个情况。某些模块的处理之后,结果全是0或负数。导致最后的预测结果也有问题。

总的来说,预测结果要么是负数,要么是0,而且不怎么变化,且绝大部分情况出现在验证集上。希望大家能谈谈自己的经验,不要用大模型总结了,谢谢。我已经问过GPT,KIMI,豆包,deepseek,Grok了,没有效果。我要求都不高,不求结果多好,起码正常一点吧。