ROMP
ROMP copied to clipboard
蒸馏模型
我们想通过蒸馏的方式训练一个模型,看到您做过相关的工作:
还有一种简洁高效的思路,就是模型蒸馏,直接蒸大模型的输出就好了,我试过蒸小模型,很有效,很快就能训好。
请问您用的哪个模型作为teacher模型以及蒸馏相关的花费方程如何设置会比较好?
@simon-thu , 用HRNet的版本会比较好。我只试过L2 norm直接学,不过貌似并不是很合理,我主要是用来引导一下某些不好训的backbone的训练。
@simon-thu 我也想蒸馏一个小模型,请问您使用的是什么监督呢?就是l2损失吗?