我伤你不懂
我伤你不懂
> 类似的特变标记,是套用template上添加的,如果直接在数据上加上,是不是会有问题 > > ``` > { > "instruction": "{{query}}\nthought\n{{thought}}", > "input": "", > "output": "{{ans}}", > "history": [], > "system": "You are a helpful assistant." > } > ```...
> > > 类似的特变标记,是套用template上添加的,如果直接在数据上加上,是不是会有问题 > > > ``` > > > { > > > "instruction": "{{query}}\nthought\n{{thought}}", > > > "input": "", > > > "output": "{{ans}}", > > >...
> 请问下你全参数微调的服务器配置是什么情况呢? 8机8卡 都是A100 80G deepspeed zero 3
> 用官方代码全参微调成功了 请问是使用多机多卡微调的吗?
> i have the same question with deepseek-coder-33b-instruct sir, I have solved the issue by setting the end token id and the end token ,when generate
> i have the same question with deepseek-coder-33b-instruct if u use the instruct model,I think u should generate with the method : ``` from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer =...
> 单机 A100 是几张卡?打开 CUDA_LAUNCH_BLOCKING=1 试试呢,报错在哪里? 请问有vllm部署的教程吗?或者文件分享下文件
> 一个个问题提问,不要一次性问6个问题就行了,其余prompt是次要的。 是一个个提问的,效果还是不好,我再优化下把
> > 你是一个学术助手,后面的对话将围绕着以下论文内容进行。请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。 > > 那你参考一下这个prompt。 好的谢谢您~
> 配置文件中对于SCORE_THRESHOLD的描述是“score越小,相关度越高,取到2相当于不筛选”。 > > 根据langchain的源码,检索时distance越小越相似是正确的,但在使用threshold进行过滤时,score是转换过的,比如faiss默认应该用了_euclidean_relevance_score_fn(),即: 1 - distance / sqrt(2) > > 因此,实际是SCORE_THRESHOLD阈值越高越严格。设为2.0时,日志中也打出了警告信息:No relevant docs were retrieved using the relevance score threshold 2.0,实际返回的知识库信息都是bm25的检索结果。 > >  > > * 版本:v0.3.x...