Ye Chen

Results 12 comments of Ye Chen

quant模型不是用infer. 而是tigerbot_infer.py,参考repo介绍哦, 前者去找pytorch_model.bin了。

on track大约两周之内。

感谢支持, 1. 建议参考我们近期paper, 里面详细介绍了预训练的一些细节:https://arxiv.org/abs/2312.08688 2. 微调和与训练的代码不同,如果单机,可用我们开源的pretrain代码。train/train_clm.py;领域数据的建议是要混合通用数据 3. 全参70b,6节点,48卡的a100-40g能跑。

对一些数据不大的领域,我们是用chat开始的

比如tigerbot预训练用了2.5TB token, 如果新的数据是这个的1%量级,那就是不大,如果是2成以上,那就是大。 从chat开始好处是保留的通用的问答和指令遵循能力,如果从base开始,那之前的chat tuning要重跑。 10B是什么大小, 10 billion token?

会的,我们还在开发中。

v6两个模型都支持100k, config里的数值只是placeholder, 我们测试用8x 40g 卡支持到总长度100k,没有问题,如果8x80g, 可支持200k,如下命令可测试: # 可以根据实际硬件情况调整max_input/generate_length export PYTHONPATH='./' ; export CUDA_VISIBLE_DEVICES=0 ; streamlit run apps/web_demo.py -- --model_path tigerbot-70b-chat-v6 --rope_scaling yarn --rope_factor 8 --max_input_length 37888 --max_generate_length 62112

去除了训练数据中不符合用户query习惯的数据,增加了prompt的多样性,去除了对齐数据中的一些已知脏数据,同时fix了前期用户反馈的一些bug,结果是benchmark测试中比上一版提高3%的性能。