wjx-git issues

Results 4 issues of


                                            wjx-git

encoder中不使用mask？而且自注意力计算中的mask计算方式是不是有误？

在 bert_model.py 中第92行， encoder_class = Encoder(self.d_model, self.d_k, self.d_v, self.sequence_length, self.h, self.batch_size, self.num_layer, self.input_representation, self.input_representation, dropout_keep_prob=self.dropout_keep_prob, use_residual_conn=self.use_residual_conn) 参数mask为何没有赋值，意思是默认不用掩模？但编码器中掩模操作是必须的吧。在 multi_head_attention.py中第82行， mask = tf.expand_dims(self.mask, axis=-1) # [batch,sequence_length,1] mask = tf.expand_dims(mask, axis=1) #...

如何实现分布式推理？

请教个问题，qwen-7b 输入长度超过12k，推理会内存溢出。我用了4张卡，模型参数平均分配在4张卡上，但是推理时张量没有分配到4张卡上，只在一张卡上计算，导致内存溢出，分布式推理如何实现？模型：qwen-1.5-7b-chat 硬件：4张A100-80G 我是这样加载模型的： self.tokenizer = AutoTokenizer.from_pretrained(plm, device_map='auto') self.model = AutoModelForCausalLM.from_pretrained(plm, device_map="auto", torch_dtype="auto") 推理： generated_ids = self.model.generate( model_inputs.input_ids, max_new_tokens=256, do_sample=False, eos_token_id=151645, pad_token_id=151645 )

训练超参问题

你好，非常感激开源训练数据。我想请教下你们训练13b模型使用的超参是多少？训练了多少步数？

多卡推理，内存溢出[Bug]

### 先决条件 - [X] 我已经搜索过 [问题](https://github.com/open-compass/opencompass/issues/) 和 [讨论](https://github.com/open-compass/opencompass/discussions) 但未得到预期的帮助。 - [X] 错误在 [最新版本](https://github.com/open-compass/opencompass) 中尚未被修复。 ### 问题类型我正在使用官方支持的任务/模型/数据集进行评估。 ### 环境环境正确，将max_seq_len设置为16k时可单卡正常推理，设置为32k时内存溢出。 ### 重现问题 - 代码/配置示例无 ### 重现问题 - 命令或脚本 python...