wjx-git
wjx-git
在 bert_model.py 中第92行, encoder_class = Encoder(self.d_model, self.d_k, self.d_v, self.sequence_length, self.h, self.batch_size, self.num_layer, self.input_representation, self.input_representation, dropout_keep_prob=self.dropout_keep_prob, use_residual_conn=self.use_residual_conn) 参数mask为何没有赋值,意思是默认不用掩模?但编码器中掩模操作是必须的吧。 在 multi_head_attention.py中第82行, mask = tf.expand_dims(self.mask, axis=-1) # [batch,sequence_length,1] mask = tf.expand_dims(mask, axis=1) #...
请教个问题,qwen-7b 输入长度超过12k,推理会内存溢出。 我用了4张卡,模型参数平均分配在4张卡上,但是推理时张量没有分配到4张卡上,只在一张卡上计算,导致内存溢出,分布式推理如何实现? 模型:qwen-1.5-7b-chat 硬件:4张A100-80G 我是这样加载模型的: self.tokenizer = AutoTokenizer.from_pretrained(plm, device_map='auto') self.model = AutoModelForCausalLM.from_pretrained(plm, device_map="auto", torch_dtype="auto") 推理: generated_ids = self.model.generate( model_inputs.input_ids, max_new_tokens=256, do_sample=False, eos_token_id=151645, pad_token_id=151645 )
你好,非常感激开源训练数据。 我想请教下你们训练13b模型使用的超参是多少?训练了多少步数?
### 先决条件 - [X] 我已经搜索过 [问题](https://github.com/open-compass/opencompass/issues/) 和 [讨论](https://github.com/open-compass/opencompass/discussions) 但未得到预期的帮助。 - [X] 错误在 [最新版本](https://github.com/open-compass/opencompass) 中尚未被修复。 ### 问题类型 我正在使用官方支持的任务/模型/数据集进行评估。 ### 环境 环境正确,将max_seq_len设置为16k时可单卡正常推理,设置为32k时内存溢出。 ### 重现问题 - 代码/配置示例 无 ### 重现问题 - 命令或脚本 python...