Mike K.

Results 15 comments of Mike K.

Добрый день убедитесь, что BPE словари (sp.model и sp.vocab) используются точно те, которые идут с моделью 1250M

Добрый вечер, Попробуйте мой скрипт из этого репо (https://github.com/l4rz/gpt-2-training/blob/master/train-horovod-1250M.py ), в нем memory saving gradients уже включены по умолчению, и оптимизатор правильно обернут: opt_grads = memory_saving_gradients.gradients(loss, train_vars) opt_grads = list(zip(opt_grads,...

Практически, самая большая модель, которая у меня входила в V100 32Gb на FP32, имела чуть больше 2B параметров. Если выходит OOM, значит, что-то не так: - batch size слишком большой...

Привет, да, конечно, не против - иначе бы я не выкладывал модель сюда. > Например: имеет ли значение язык при обучении языковой модели? Разумеется, имеет - я заметил, что модели...

Hi, unfortunately it's not there yet :(

It would be nice!

@Nehc You are very welcome to do so.

Странно. А ты точно используешь sentencepiece токенайзер (а не тот BPE, который шел с gpt-2)? import encoder_sp as encoder

Написал, посмотри pls в почту.

Hi, thank you for noticing this! Seems like i forgot to include the checkpoint file in the package. Please create an checkpoint file in the model dir, e.g. for the...