bixiaopeng
bixiaopeng
你好,难样本挖掘这块,我看论文没看懂,可以详细说一下吗
提高训练时显卡利用率有什么好的解决思路吗
谢谢回复,请问你有改过吗,哪些会work? 我之前改了初始学习率,更换优化器,都没有得到提升。
Hi, I also can't reproduce the wining result, I run twice,and get the same result. and someone also get the result below the leaderboard,such as https://github.com/cvg/Hierarchical-Localization/issues/5 -- | duc1 |...
如果去掉后处理,是支持的哈
使用新代码(9.2下午拉的)训练报错 internvl_chat_gpt_oss/internvl/patch/qwen3_flash_monkey_patch.py", line 50, in _forward_qwen3 [rank1]: assert query_states.size(0) == key_states.size(0) == value_states.size(0) == 1 [rank1]: AssertionError 脚本 internvl/train/internvl_chat_finetune.py \ --model_name_or_path "/home/InternVL3_5-1B/" \ --conv_style "internvl2_5" \ --use_fast_tokenizer False \ --output_dir...
> 开启pack训练的时候PER_DEVICE_BATCH_SIZE必须是1 请问现在支持非packing方式,bs > 1训练吗,有相应脚本可以参考吗