auto-dev icon indicating copy to clipboard operation
auto-dev copied to clipboard

实现快速的相似度搜索

Open c913168497 opened this issue 1 year ago • 7 comments

  1. 希望能实现一个功能,将文本数据向量化后存储在向量数据库中,以实现快速的相似度搜索,从而检索与输入查询相关的文本片段,再将检索到的文本输入,最终形成我需要的提示词

c913168497 avatar Jun 05 '24 08:06 c913168497

我们在 VSCode 版本实现了类似的功能,但是导致插件体积太大,暂时没有精力迁移到 IDEA 中。详细可以参考:https://github.com/unit-mesh/auto-dev-vscode

比较理想的形式应该是使用额外的 embedding 包和向量数据库。

欢迎来 PR

phodal avatar Jun 05 '24 08:06 phodal

有没有这方面embedding包和向量数据库推荐呢~

c913168497 avatar Jun 05 '24 09:06 c913168497

可以参考 VSCode 版本

phodal avatar Jun 05 '24 12:06 phodal

@c913168497

方式 1:使用 TFIDF 算法。Copilot 主要用的就是他,和 embedding 之类的相比,还是相当靠谱的。 方式 2:在 Unit Mesh 中,可以用我们的 LLM SDK 来开发:https://github.com/unit-mesh/chocolate-factory

phodal avatar Jun 23 '24 07:06 phodal

牛 真的在实现了, 我试试

c913168497 avatar Aug 16 '24 02:08 c913168497

看了一下代码 还在实现中~~~~ 加油~

c913168497 avatar Aug 16 '24 06:08 c913168497

只是接口上支持,功能还没实现

phodal avatar Aug 16 '24 12:08 phodal