Porraio

Results 8 comments of Porraio

> 本身llama tokenizer原生也是没有停止符的 词表里不是有eos_token吗?``,id是2。你们使用的bos_token是``吗,id是1。

> 不好意思,说得不准确 > 在transformers里llama tokenizer在默认参数下默认是不使用eos的, > llama原版的代码里在生成时也未使用eos : > [ prompt_tokens = [self.tokenizer.encode(x, bos=True, eos=False) for x in prompts]](https://github.com/facebookresearch/llama/blob/1076b9c51c77ad06e9d7ba8a4c6df775741732bd/llama/generation.py#L28) 我觉得是因为默认在generation的模式下,遇到eos就会直接结束掉吧,所以生成的时候只需要加入bos。但是训练的过程中呢,加入的话其实就代表这句话结束了吧,多条的时候,续写完就会end掉。不会继续写其他的。

> 因为是在run_clm.py基础上预训练的,所以我们没有对它的数据格式改动太多。我们也考虑了预训练没有``的影响,不过最终认为影响不大,原因如下(当然,我并不知道LLaMA原版在预训练时有没有用``): > > * 对于预训练模型,如果直接拿来做生成,可以把eos设置成bos,因为按预训练数据的组织形式,实际上``也充当了上一句eos的功能 > * 另一方面,在SFT训练中,``是加了回来的;我们实验也证实了在SFT阶段模型也是能学到停止符的含义的 主要是我试了原生的llama,是可以停止的。bos和eos是正常的,但是你们给出的中文增量后就不会停止了,所以有这个疑问,是不是因为这个原因导致的。

> > > 因为是在run_clm.py基础上预训练的,所以我们没有对它的数据格式改动太多。我们也考虑了预训练没有``的影响,不过最终认为影响不大,原因如下(当然,我并不知道LLaMA原版在预训练时有没有用``): > > > > > > * 对于预训练模型,如果直接拿来做生成,可以把eos设置成bos,因为按预训练数据的组织形式,实际上``也充当了上一句eos的功能 > > > * 另一方面,在SFT训练中,``是加了回来的;我们实验也证实了在SFT阶段模型也是能学到停止符的含义的 > > > > > > 主要是我试了原生的llama,是可以停止的。bos和eos是正常的,但是你们给出的中文增量后就不会停止了,所以有这个疑问,是不是因为这个原因导致的。 > > 是测试Chinese-LLaMA吗,如果停止符设成``,那的确不会停止,是这个原因。 嗯,但是原生的llama, eos设定成会停,所以猜测是不是原生预训练加了的,或者说原生的只加eos token?不用bos

> Try disabling flash attention, A800 are not supported by it I think. > > `USE_FLASH_ATTENTION=false` in your env should do. I think it's supoorted. It's fine and fast when...

> * 预训练会用到 bos,eos,unk,pad,其他暂时没用 > * vocab 设置为 100008,一方面flagai中tokenizer的设计,另一个方面vocab padded到8的倍数训练速度微弱好些; > * aquile_ generate 可以加上 start_ token。 请问这里的bos_token是`[CLS]`,id100006;eos_token是``,id100007吗。看上去有点奇怪。unk,pad的id都是0吧。

> In zero-3 the model weights are partitioned across multiple GPUs and the `state_dict` contains just the placeholders. I cannot find any instructions about how to load checkpoints saved without...

应该是以下的构造方式。 input_ids是 [token1, token2, gmask, sop, token3, token4, eop] labels是 [-100, -100, -100, -100, token3, token4, eop] position_ids是 [[0, 1, 2, 2, 2, 2, 2, 2], [0, 0, 0, 1,...