Guangde Yue comments

Results 4 comments of


                                            Guangde Yue

可以在领域数据集上，做无监督的增量微调吗？

> https://docs.llamaindex.ai/en/stable/examples/finetuning/embeddings/finetune_embedding.html @staoxiao 请教大佬： 1. 在另一个issue里看到您回到说“使用近似短句或者问答对都可以作为训练数据”，那请问效果上是否有区别？使用问答对作为训练数据，最终得到的模型更适用于问答？ 2. 在llamaindex的这个示例中，得到的是tuple(问题,corpus片段)，这里的corpus片段是从pdf内容中直接截断的片段。我的问题是：是否需要使用大模型将答案归纳为一个完整的回答后，作为训练数据？（担心使用分割后的截断片段数据会影响效果） 3. 这个示例中使用的是问答对的形式。有比较好的使用大模型通过文本获取近似短句的示例吗？ 4. 这个示例使用的微调模型，跟使用bge官方的难负例挖掘微调模型，更推荐使用哪个？感谢！

可以在领域数据集上，做无监督的增量微调吗？

> 1. 下游任务是什么，就应该用什么作为训练数据。使用问答对作为训练数据，最终得到的模型会更适用于问答。 > 2. 看实际任务。如果任务是找相关片段，就使用直接截断的片段即可。如果任务是找一个答案，就可以使用大模型归纳出答案。 > 3. 这个我们也没有尝试过，无法给出太多建议。 > 4. 这个示例里用的是bge-small-en，根据实际情况选择模型即可：中文模型使用bge-*-zh-v1.5, 资源够可以使用bge-large-zh-v1.5。 @staoxiao 感谢大佬指导：）第四个问题我没有描述清楚：他的示例代码里是使用下面llama代码微调的，跟使用bge官方的微调方法，效果上有区别吗？ llama微调： finetune_engine = SentenceTransformersFinetuneEngine( train_dataset, model_id="BAAI/bge-small-en", model_output_path="test_model", val_dataset=val_dataset, ) finetune_engine.finetune() bge微调： torchrun --nproc_per_node {number...

可以在领域数据集上，做无监督的增量微调吗？

> 抱歉，没有理解清楚。效果上不好比较，我没跑过他们的训练代码。如果训练数据和参数是一样的话，我觉得两种方式应该也不会相差太多。感谢耐心解答！

页面更新了 gpt4 plus 用户的插件现在用不了了

> gpt4用户据说页面变化很大，需要共享一下页面给我调试一下css。对着最顶部的``标签也就是第二行，右键，复制，复制outerHTML ![图片](https://user-images.githubusercontent.com/14187349/281595959-fcac4f2a-473f-4d50-878a-3ecef23f7c22.png) [debug.zip](https://github.com/xcanwin/KeepChatGPT/files/13318477/debug.zip)

Guangde Yue

可以在领域数据集上，做无监督的增量微调吗？

可以在领域数据集上，做无监督的增量微调吗？

可以在领域数据集上，做无监督的增量微调吗？

页面更新了 gpt4 plus 用户的 插件 现在用不了了

页面更新了 gpt4 plus 用户的插件现在用不了了