Guangde Yue
Guangde Yue
> https://docs.llamaindex.ai/en/stable/examples/finetuning/embeddings/finetune_embedding.html @staoxiao 请教大佬: 1. 在另一个issue里看到您回到说“使用近似短句或者问答对都可以作为训练数据”,那请问效果上是否有区别?使用问答对作为训练数据,最终得到的模型更适用于问答? 2. 在llamaindex的这个示例中,得到的是tuple(问题,corpus片段),这里的corpus片段是从pdf内容中直接截断的片段。我的问题是:是否需要使用大模型将答案归纳为一个完整的回答后,作为训练数据?(担心使用分割后的截断片段数据会影响效果) 3. 这个示例中使用的是问答对的形式。有比较好的使用大模型通过文本获取近似短句的示例吗? 4. 这个示例使用的微调模型,跟使用bge官方的难负例挖掘微调模型,更推荐使用哪个? 感谢!
> 1. 下游任务是什么,就应该用什么作为训练数据。使用问答对作为训练数据,最终得到的模型会更适用于问答。 > 2. 看实际任务。如果任务是找相关片段,就使用直接截断的片段即可。如果任务是找一个答案,就可以使用大模型归纳出答案。 > 3. 这个我们也没有尝试过,无法给出太多建议。 > 4. 这个示例里用的是bge-small-en,根据实际情况选择模型即可:中文模型使用bge-*-zh-v1.5, 资源够可以使用bge-large-zh-v1.5。 @staoxiao 感谢大佬指导:) 第四个问题我没有描述清楚:他的示例代码里是使用下面llama代码微调的,跟使用bge官方的微调方法,效果上有区别吗? llama微调: finetune_engine = SentenceTransformersFinetuneEngine( train_dataset, model_id="BAAI/bge-small-en", model_output_path="test_model", val_dataset=val_dataset, ) finetune_engine.finetune() bge微调: torchrun --nproc_per_node {number...
> 抱歉,没有理解清楚。 效果上不好比较,我没跑过他们的训练代码。如果训练数据和参数是一样的话,我觉得两种方式应该也不会相差太多。 感谢耐心解答!
> gpt4用户据说页面变化很大,需要共享一下页面给我调试一下css。 对着最顶部的``标签也就是第二行,右键,复制,复制outerHTML  [debug.zip](https://github.com/xcanwin/KeepChatGPT/files/13318477/debug.zip)