FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

lm score为什么要去掉special token

Open chiosChen opened this issue 2 years ago • 1 comments

您好,run_lm_score.py中专门去掉了input ids中的special token,尤其是label中的eos token也被去掉了。我理解的是score就是llm的loss,而eos也是要参与loss计算的,那为什么还要去掉呢?

chiosChen avatar Dec 10 '23 07:12 chiosChen

你好。score=-loss,加不加eos其实都行,差别不会很大。我们去掉eos是考虑对于base模型,其没有学过生成eos,因此认为将eos纳入loss计算是不正确的。

namespace-Pt avatar Dec 10 '23 12:12 namespace-Pt