Ye Chen comments

Results 12 comments of


                                            Ye Chen

windos安装报错

quant模型不是用infer. 而是tigerbot_infer.py，参考repo介绍哦, 前者去找pytorch_model.bin了。

你好，想问下数据清洗部分对涉黄爆、政数据过滤的sota模型是开源模型吗？

是的，我们开源的就是我们main stream的模型。

官方能否提供continue pretrain（增量预训练）的脚本呢？

感谢支持， 1. 建议参考我们近期paper, 里面详细介绍了预训练的一些细节：https://arxiv.org/abs/2312.08688 2. 微调和与训练的代码不同，如果单机，可用我们开源的pretrain代码。train/train_clm.py；领域数据的建议是要混合通用数据 3. 全参70b，6节点，48卡的a100-40g能跑。

训练垂直领域大模型应该基于哪个版本？

比如tigerbot预训练用了2.5TB token, 如果新的数据是这个的1%量级，那就是不大，如果是2成以上，那就是大。从chat开始好处是保留的通用的问答和指令遵循能力，如果从base开始，那之前的chat tuning要重跑。 10B是什么大小， 10 billion token?

v6两个模型都支持100k, config里的数值只是placeholder, 我们测试用8x 40g 卡支持到总长度100k,没有问题，如果8x80g, 可支持200k,如下命令可测试： # 可以根据实际硬件情况调整max_input/generate_length export PYTHONPATH='./' ; export CUDA_VISIBLE_DEVICES=0 ; streamlit run apps/web_demo.py -- --model_path tigerbot-70b-chat-v6 --rope_scaling yarn --rope_factor 8 --max_input_length 37888 --max_generate_length 62112

开源的模型里哪个是100K上下文的版本？

可以的

tigerbot-13b-chat版本v4和v3啥区别？

去除了训练数据中不符合用户query习惯的数据，增加了prompt的多样性，去除了对齐数据中的一些已知脏数据，同时fix了前期用户反馈的一些bug，结果是benchmark测试中比上一版提高3%的性能。

Ye Chen

windos安装报错

啥时候放出33b的

你好，想问下数据清洗部分对涉黄爆、政数据过滤的sota模型是开源模型吗？

官方能否提供continue pretrain（增量预训练）的脚本呢？

训练垂直领域大模型应该基于哪个版本？

训练垂直领域大模型应该基于哪个版本？

30B的模型啥时候发布呢

开源的模型里哪个是100K上下文的版本？

开源的模型里哪个是100K上下文的版本？

tigerbot-13b-chat版本v4和v3啥区别？