shumuha

Results 2 issues of shumuha

参考脚本quick_start_user_defined/run_user_defined_pai.sh 输入是odps表,输出模型到oss 如果在main.py 中将 evaluator = None替换为 evaluator = get_application_evaluator(app_name=args.app_name,valid_dataset=valid_dataset,user_defined_parameters=user_defined_parameters,eval_batch_size=args.micro_batch_size) 时会出现_common_io.UserException: table/table_buffer.cpp(93): UserException: Read table time out!错误,反复运行多次,大概都在正常运行20分钟左右会出现。 如果设置evaluator=None则正常训练。

### Reminder - [X] I have read the README and searched the existing issues. ### Reproduction 参考https://github.com/hiyouga/LLaMA-Factory/wiki/Performance-comparison,使用 [llama 8B](https://hf-mirror.com/gradientai/Llama-3-8B-Instruct-Gradient-1048k/tree/main)的模型训练,但是显存占用和文档差异比较大,单卡环境cutoff_len =65536基本80G占满,cutoff_len=100k就OOM。问下有什么问题吗? 运行参数: python src/train.py \ --stage sft \ --do_train \ --model_name_or_path...