Mao Shizhuo
Mao Shizhuo
congratulations! I just want to say maybe you can try use transformers==4.33.0,about the error use_flash_attention2 we tried many ways but this make it at last.
you need to quant by per-token for activations and per-channel for weights
> DeepSeek R1论文里设置max_out_len=32768,2048是不够的 改成32768之后accuracy仍然只有3.33,我用的deepseek-distill-Qwen2-7B (smoothquantpre) [maoshizhuo@ISPC-GPU2-CS opencompass]$ CUDA_VISIBLE_DEVICES=1 python run.py --datasets aime2024_0shot_nocot_gen_2b9dc2 --hf-type chat --hf-path /home/maoshizhuo/2025/deepseek-Qwen-7B --debug --max-out-len 32768 --generation-kwargs do_sample=True top_k=50 02/23 21:24:40 - OpenCompass - INFO - Loading...
> 我也遇到了这个问题,光改模型的max_out_len不行的,因为他数据集的参数限制是2048,要两个都改。outputs里有参数相关的py文件,可以看到数据集的max_out_len。然后我去数据集相关的源码里改的,才解决。 请问一下你说的数据集相关的源码是哪个源码呢?我找了dataset的aime2024.py并没有找到限制输出长度的代码,谢谢!
> 请问改了max out len 解决了吗 > > > configs/datasets/aime2024/,你用哪个版本的数据集就改哪个版本的代码,改max_out_len 解决了,得到的结果非常准确,花了9个多小时,在这里多谢 @nku-ligl 同仁了!
> 请问你跑出来多少分,能跟官方的数据对上嘛 和官方的差不多,好像是30.3%,官方的低一点点
> > > 请问你跑出来多少分,能跟官方的数据对上嘛 > > > > > > 和官方的差不多,好像是30.3%,官方的低一点点 > > 请问30.3%是什么模型呀,官网上7B-distill似乎能到55.5% 我用的1.5B-distill
> 我想问一下为什么我的出现了找不到路径呢 (opencompass) (base) ubuntu@ubuntu-SYS-4028GR-TR:/apps/llms/opencompass$ python run.py --datasets aime2024_0shot_nocot_gen_2b9dc2 --hf-type chat --hf-path /apps/llama_factory/LLaMA-Factory/saves/DeepSeek-R1-Distill-Qwen-7B/full/sft_25_4_3_19:02/ --debug --max-out-len 32768 --generation-kwargs do_sample=True top_k=50 04/08 10:50:14 - OpenCompass - INFO - Loading aime2024_0shot_nocot_gen_2b9dc2: /apps/llms/opencompass/opencompass/configs/./datasets/aime2024/aime2024_0shot_nocot_gen_2b9dc2.py 04/08...