01vanilla

Results 5 issues of 01vanilla

**描述这个 bug** 我在使用BART模型和wmt16-en-de的时候出现src和tgt长度不一致的情况,但是我检查了数据集之后发现文件长度相等。 **如何复现** (cmd: run_textbox.py --model=BART --model_path=facebook/bart-base --dataset=wmt16-en-de --src_lang=en_XX --tgt_lang=de_DE) **日志** ================================================================================ # General Hyper Parameters: gpu_id: 0 use_gpu: True device: cuda seed: 2020 reproducibility: True cmd: run_textbox.py --model=BART...

bug

**描述这个 bug** 我在使用mBART模型和WMT19zh-en时碰到以下问题。 **如何复现** run_textbox.py --model=mBART --model_path=facebook/mbart-large-cc25 --dataset=wmt19-zh-en --src_lang=zh_CN --tgt_lang=en_XX **日志** 23 Apr 00:43 INFO Pretrain type: pretrain disabled :1: SyntaxWarning: 'int' object is not callable; perhaps you missed a...

bug

我在复现L2O-Scale-Training时,根据Readme文件安装好环境以后,遇见了如下的问题: 具体运行代码为 python metarun.py --train_dir=hess_cl_mt --regularize_time=none --alpha=1e-4 --reg_optimizer=True --reg_option=hessian-esd --include_softmax_2_class_problems --num_problems=1 --num_meta_iterations=100 --fix_unroll=True --fix_unroll_length=20 --evaluation_period=1 --evaluation_epochs=5 --use_second_derivatives=False --if_cl=False --if_mt=False --mt_ratio=0.1 --mt_k=1 得到的报错在log文件中,请问这种问题应该如何解决呢 [log.txt](https://github.com/VITA-Group/Open-L2O/files/14566424/log.txt)

在attention代码中,我发现有一个名为to_out的操作,我无法理解这个操作是用来实现什么功能的 具体代码为: class Attention(nn.Module): def __init__(self, dim, heads = 8, dim_head = 64, dropout = 0.): super().__init__() inner_dim = dim_head * heads project_out = not (heads == 1 and dim_head...

I'm really appreciate your work.I would like to draw a graph similar to Figure 13 and 14. Can you provide me with the code?