abigial
abigial
感谢作者提供的UER工具包,对完成模型的预训练有很大的帮助。 预训练主要通过运行preprocess和pretrain两个.py文件完成,想请问一下模型是否支持在在预训练过程中自主添加adapter完成训练呢?
目前最低的随机应变值为0.5,但是希望不使用随机应变,而是原始的翻译结果。
I simply aim to obtain the logit value corresponding to the first token generated in each request , rather than acquiring sampled tokens. For example, for A/B/C/D tokens, how to...
您好,我在使用该框架测试gsm8k时遇到了复现不一致的问题。 用minicpm-2b-sft-bf16模型在gsm8k任务上测的值只有38.13, ``` "overall_result": { "accuracy": 0.3813495072024261 } ``` 使用的配置参数如下: ``` { "task_name": "gsm8k_gsm8k_gen", "path": "datasets/gsm8k/data/gsm8k.jsonl", "description": "", "transform": "datasets/gsm8k/transform_gen_v0.py", "fewshot": 8, "batch_size": 1, "generate": { "method": "generate", "params": "models/model_params/vllm_sample_v1.json",...
类似channel loss的概念。 channel loss:不同数据 channel 各自的 loss。也就是说假设 1 个 batch 有 100 条数据:40条 en,30 条 cn, 20条 code, 10 条 domain,那么就绘制四条不同 channel 的 loss 曲线和一条总的 total loss 曲线。