a101269 comments

Results 6 comments of

a101269

hf转换后的13B model无法达到公布性能，求公开模型hf格式的模型权重哈希值以及transformer版本

我也遇到这个问题，13B的几个文件sha256值和给出的sha256完全一致，peft也是0.2.0，但感觉13B比7B效果差很多

hf转换后的13B model无法达到公布性能，求公开模型hf格式的模型权重哈希值以及transformer版本

> > 我也遇到这个问题，13B的几个文件sha256值和给出的sha256完全一致，peft也是0.2.0，但感觉13B比7B效果差很多 > > @a101269 方便给出推理方式及具体解码参数吗？推理方式：7B、13B都没量化，在V100上直接跑的。参数13B {temperature=0.7, top_k=40, top_p=0.95, do_sample=True, num_beams=1, repetition_penalty=1.3, max_new_tokens=400}，也试过7B用的这组{ temperature=0.2, top_k=40, top_p=0.9, do_sample=True, num_beams=1, repetition_penalty=1.3, max_new_tokens=400}，效果都不如7B

hf转换后的13B model无法达到公布性能，求公开模型hf格式的模型权重哈希值以及transformer版本

> > > 我也遇到这个问题，13B的几个文件sha256值和给出的sha256完全一致，peft也是0.2.0，但感觉13B比7B效果差很多 > > > > > > @a101269 方便给出推理方式及具体解码参数吗？ > > 推理方式：7B、13B都没量化，在V100上直接跑的。参数13B {temperature=0.7, top_k=40, top_p=0.95, do_sample=True, num_beams=1, repetition_penalty=1.3, max_new_tokens=400}，也试过7B用的这组{ temperature=0.2, top_k=40, top_p=0.9, do_sample=True, num_beams=1, repetition_penalty=1.3, max_new_tokens=400}，效果都不如7B...

相同输入下结果不同

> > @Liujish931 我看了一下具体代码，只有frontend.py里面的定义的model设置了eval()模式。但是真正做inference的model， `.modules.elmo.ElmobiLm` 没有设置eval()模式。所以应该还是在inference的时候做了dropout > > 创建模型的get_model() 里面最后有model.eval(), modules.elmo.ElmobiLm只是整个模型的子模型所以也会被设置为0 而且你可以运行的时候看的确所有的dropout都是0 > > 没错 eval() 会影响所有子模型的dropout和 batch normalisation, pytorch doc里有那相同输入，输出却不同的真正原因是什么呢？

相同输入下结果不同

> 想问一下大家。不同的输出结果对你们有影响吗 > > ----- 后来发现其实官方的elmo也是会变化的。影响很大

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:3 and cuda:0!

same error