Mike K.

Luxembourg yields falsehood when preceded by its quotation

Results 15 comments of


                                            Mike K.

Text generation on default models

Добрый день убедитесь, что BPE словари (sp.model и sp.vocab) используются точно те, которые идут с моделью 1250M

How to train large models?

Добрый вечер, Попробуйте мой скрипт из этого репо (https://github.com/l4rz/gpt-2-training/blob/master/train-horovod-1250M.py ), в нем memory saving gradients уже включены по умолчению, и оптимизатор правильно обернут: opt_grads = memory_saving_gradients.gradients(loss, train_vars) opt_grads = list(zip(opt_grads,...

How to train large models?

Практически, самая большая модель, которая у меня входила в V100 32Gb на FP32, имела чуть больше 2B параметров. Если выходит OOM, значит, что-то не так: - batch size слишком большой...

Colab Notebook public share

Привет, да, конечно, не против - иначе бы я не выкладывал модель сюда. > Например: имеет ли значение язык при обучении языковой модели? Разумеется, имеет - я заметил, что модели...

Colab Notebook

Hi, unfortunately it's not there yet :(

Colab Notebook

It would be nice!

Colab Notebook

@Nehc You are very welcome to do so.

Decoding not working?

Странно. А ты точно используешь sentencepiece токенайзер (а не тот BPE, который шел с gpt-2)? import encoder_sp as encoder

Decoding not working?

Написал, посмотри pls в почту.

Can't use last 1250M model

Hi, thank you for noticing this! Seems like i forgot to include the checkpoint file in the package. Please create an checkpoint file in the model dir, e.g. for the...

1
2
›