nlpBeginner
Results
3
comments of
nlpBeginner
@Cumberbatch08 
@Cumberbatch08 我觉得是这个意思
在task-specific distillation这一过程中,TinyBERT是在原始数据集和大量的增强数据集做的,因为增强数据集没有hard label,所以算法设计的时候我们统一使用了soft label。这与传统的kd有一定的区别~