何敏

Results 1 issues of 何敏

我已经把配置文件改小了: `class T5ModelConfig: d_ff: int = 1024 # 全连接层维度 d_model: int = 512 # 词向量维度 num_heads: int = 8 # 注意力头数 d_model // num_heads == d_kv d_kv: int = 64...