HUSTHY
HUSTHY
全部拍查过了;原因是梯度回传的时候梯度每次不一样;关闭优化器结果就可以复现; 官方人员说是paddle某些op具有随机性,导致梯度回传更新参数不一样
我把完整的代码都上传到附件paddle_first_demo.zip上了 [paddle_first_demo.zip](https://github.com/PaddlePaddle/PaddleNLP/files/9295666/paddle_first_demo.zip)
谢谢 回复 貌似 这个操作我试过了的 就是把bert config文件中的一些dropout设置参数设置为0相当于把bert结构中的dropout和attention模块中的dropout都关闭了;貌似没有效果
不过我也不确认生效没有 我再去确认一下
cpu 上是没有随机性的 可以确认
还有一个问题 请教一下 如果使用paddle去实现 SIMCSE 算法 bert config hidden_dropout_prob 和 attention_probs_dropout_prob 一定不能为0,那有什么方法可以解决呢?
OK 确认了 还是不行 GPU上跑起来效果还是不行 第一次acc=0.5605 第二次acc=0.5655 还是不能复现出一样的结果 总之谢谢你的回复
这是我用全部的数据,不是1000条 第一次训练结果 2022-08-22 12:10:11,619 train_sentence_bert.py [line:91] INFO args: Namespace(batch_size=64, epochs=5, lr=1e-05, max_len=64, model_out='./output', pretrained='pretrained_models/paddle/bert-wwm-ext-chinese', task_type='classification', train_file='./data/paws_x/translated_train.tsv', val_file='./data/paws_x/dev_2k.tsv') 2022-08-22 12:11:28,773 train_sentence_bert.py [line:111] INFO ***** Running training ***** 2022-08-22 12:11:28,774 train_sentence_bert.py [line:112]...
这是我用1000条数据训练对比 第一次训练结果 2022-08-22 14:59:04,602 train_sentence_bert.py [line:91] INFO args: Namespace(batch_size=64, epochs=5, lr=1e-05, max_len=64, model_out='./output', pretrained='pretrained_models/paddle/bert-wwm-ext-chinese', task_type='classification', train_file='./data/paws_x/translated_train.tsv', val_file='./data/paws_x/dev_2k.tsv') W0822 14:59:04.653079 74201 gpu_resources.cc:61] Please NOTE: device: 1, GPU Compute Capability: 8.6, Driver...
1000条数据的时候 第一个epoch的结果是一样的;全部数据集的时候不一样; 环境和你的环境是一样的