Liu Dongxiao

Results 5 issues of Liu Dongxiao

以MlmDataset 中 最简单的字粒度为例,不开启full-sentence开关 当样本长度超过max_length时候,样本被切分 然而此时的 [CLS] [SEP] token 却只存在一份,这是由之前的 document 传入的,样本拆分后并没有产生额外的头尾 token 这种行为符合预期么,理论上每个单独的样本都应该具有一个 [CLS] 头 [SEP] 尾

缺少其他的预训练任务感觉会破坏模型效果

不用deepspeed会爆显存, 有没有推荐的预训练参数设置,可以全程高效率的跑GPU

### Python -VV ```shell Python 3.10.12 (main, Mar 22 2024, 16:50:05) [GCC 11.4.0] ``` ### Pip Freeze ```shell accelerate==0.32.1 aiohttp==3.9.5 aiosignal==1.3.1 annotated-types==0.7.0 anyio==4.4.0 argon2-cffi==23.1.0 argon2-cffi-bindings==21.2.0 arrow==1.3.0 asttokens==2.4.1 async-lru==2.0.4 async-timeout==4.0.3 attrs==23.2.0...

bug

And I set this argument to true, but not found PPL or logits in return Besides, what is this argument supposed to return? Should it return only the logits of...