Nebuladream
Nebuladream
We train the model on 4-GPUs with different batch size. The results on validation change largely with batch size, for batch=128 we get all_recall=286; batch = 256 we get all_recall=268;...
您好,最近我们在做caption相关的工作,希望能够基于ai challenger的这个数据集做一些工作。但是数据集的官方下载通道被关闭了,不知道您是否愿意分享一下给我们。
I run your inference phrase success, but when I try to finetune your model by AIChallenger data, it seems not right, after some epoch the keypoints disappear…… in your main.py,...
dataloader 存在内存泄漏问题,好像新版本也没fix 。 有什么建议么? 
多机实验hang住问题
多机实验,没有明显的报错,节点与master失联,以及1.2这个版本的RDMA怎么开启? 2024-06-30 18:08:30 - Avoid using `tokenizers` before the fork if possible 2024-06-30 18:08:30 - Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false) 2024-06-30 18:08:30 huggingface/tokenizers: The current process just...
对于PAB的threshold、gap应该如何确定合适的超参数,需要对比不同step的att数值变化么,有什么经验?以及如果使用full attention是否仍然适用?
https://github.com/user-attachments/assets/4351fc5e-f7fd-456b-807e-82fdcb321de2