enbiwudi

Results 2 issues of enbiwudi

起因是我尝试测试一下base模型的格式follow能力,但测了几次发现模型高频续写一些选择题和解析内容。 所以用一些攻击性文本,简单测试了一下14B base model ``` text = """解析解析解析解析解析解析解析解析解析解析解析解析解析解析""" inputs = tokenizer(text, return_tensors="pt") outputs = model.generate( **inputs.to("cuda"), max_new_tokens=1000, eos_token_id=7, do_sample=True, temperature=0.35, top_p=0.5, no_repeat_ngram_size=6, repetition_penalty=1.1, num_beams=1) ``` 模型output如下: ``` 分析解析解析解析解析解析解解析解析解析解析解析 解析:本题考查的是对文中重要内容的理解与分析能力。解答此类题,首先应浏览选项的内容,然后到文中找到相关的句子,最后进行对比辨析,判断正误。本题要求选出“根据原文内容,下列理解和分析不正确的一项”。A项,“在古代中国,人们认为‘天圆地方’”错误,由原文第一段可知,古人认为“天圆地方”,但并非所有古人都这样认为。B项,“《周髀算经》中记载了商高同周公的一段对话”错误,由原文第二段可知,《周髀算经》中有商高同周公的这段对话,而非“记载”。C项,“这表明当时的人们已经具有相当丰富的天文知识”错误,由原文第三段可知,这说明当时的人们已经能够运用勾股定理解决实际问题,而不是“具有相当丰富的天文知识”。故选D。Answer these...

显示3072和2688维度不一致,观察:一个是emb乘3.5 另一个是乘4 于是手动将--dim_ffn改为3072,但是: `RuntimeError: Error(s) in loading state_dict for RWKV: Missing key(s) in state_dict: "blocks.0.att.time_mix_g", "blocks.0.att.time_faaaa", "blocks.0.att.gate.weight", "blocks.1.att.time_mix_g", "blocks.1.att.time_faaaa", "blocks.1.att.gate.weight", "blocks.2.att.time_mix_g", "blocks.2.att.time_faaaa", "blocks.2.att.gate.weight", "blocks.3.att.time_mix_g", "blocks.3.att.time_faaaa", "blocks.3.att.gate.weight", "blocks.4.att.time_mix_g", "blocks.4.att.time_faaaa", "blocks.4.att.gate.weight", "blocks.5.att.time_mix_g",...