SimCSE
SimCSE copied to clipboard
同一个batch中相同的句子一起输入模型,在这一次正向传播中 dropout是一样的吧?
同问,相当于正例通过的是同一个模型,这个和原论文不符合~
一个batch内的dropout mask理论上是一样的,一个batch同一个句子重复两遍,经过的也是相同的dropout mask,理论上encoder输出的向量是一样的,感觉没有引入dropout noisy啊
—— 尴尬😓review了一遍dropout层的实现,正常在不传入noisy_shape时,noisy_shape默认与input shape一致,即[N,xx,xx]或[N,xx],这样dropout mask是样本维度,所以重复的样本会计算不同的dropout mask,实现和原论文逻辑一致。