Haijunlv
Haijunlv
ok, then may be frcnn r50 2x +swa may get further improvement. thx to you answer
https://github.com/microsoft/Cream/blob/main/AutoFormer/experiments/subnet/AutoFormer-B.yaml autoformer vit subnet config is more looks like a searched config
hope to get s3 search model config, too
> 你好,我也有类似的问题,请教下你的loss起始值是多少呢?我是从8.0开始下降 我的也是, loss从8下降到1.95。
> > 我自己在继续训练的时候是从3开始下降到1.9左右开始缓慢下降了 > > 继续训练的话从3左右开始比较符合预期。 loss起点3这个再请教下。 我们复现的继续训练没有走stage1, 直接上stage2, 一起训练embedding和全量权重。 在训练前我用英文语料过了下,loss起点在2左右,大致判断中文词表及中文embedding的加入并没影响到模型对英文的理解。 然后直接上stage2, 在中文语料上继续训练,此时的Loss起点是8。 这个loss起点 您觉得有问题吗? 考虑到chinese llama-13B 也是直接上stage2, 想再确认下13B在stage2上的loss起点是多少?
> > > > 我自己在继续训练的时候是从3开始下降到1.9左右开始缓慢下降了 > > > > > > > > > 继续训练的话从3左右开始比较符合预期。 > > > > > > loss起点3这个再请教下。 我们复现的继续训练没有走stage1, 直接上stage2, 一起训练embedding和全量权重。 在训练前我用英文语料过了下,loss起点在2左右,大致判断中文词表及中文embedding的加入并没影响到模型对英文的理解。 然后直接上stage2, 在中文语料上继续训练,此时的Loss起点是8。 这个loss起点 您觉得有问题吗?...
> @Haijunlv > 请问你们最终的预训练模型生成效果如何呢?loss在1.95的情况下 效果挺好,我们判断这个训练流程是合理的
> np.random.shuffle(bboxes) change the order of bboxes. > so below code should be changed with np.random.permutation() > > if not func_changes_bbox: > np.random.shuffle(bboxes) > loop_bboxes = bboxes > -> if...
@Pika7ma did you reproduce kinetics top1 72.5% at 16Frames? I followed tsn based source code(a little diffent at init weight). trained 45 epoch with tran param from paper. But only...
@tzzcl yes. I use tsn codebase to reproduce. But still have 2% gap with the paper. Maybe pretrained weight is important. But lateset paper by kaiming said pretrained is not...