D6582

Results 3 issues of D6582

为什么验证集val_accuracy的准确率只有百分之几,但是lfw的准确率却能到80多,训练集准确率也能到99多

Why use your network to train halfway, and the gradient becomes nan,thanks for your reply

请问作者,您的方法可以是否可以替换我现在普通的logit蒸馏,我这样的修改是否可以,中间特征的蒸馏加上您的蒸馏,其次有没有好的超参数推荐,因为数据集十分庞大,无法多次调试,期待您的答复!十分感谢! ![Image](https://github.com/user-attachments/assets/b7b00ad9-fe7f-4744-823f-f0964cd34107)