activetigger icon indicating copy to clipboard operation
activetigger copied to clipboard

Add lightweight RAG for trainset

Open emilienschultz opened this issue 8 months ago • 1 comments

Possibility to use an open prompt to search the vector database (for instance : https://ganeshs.hypotheses.org/)

Necessity to better manage the model used to create the vector to allow compatibility

emilienschultz avatar Aug 25 '25 11:08 emilienschultz

Proposition précédente de @jboelaert

On pourrait intégrer une fonctionnalité "information retrieval". Typiquement : laisser l'utilisateur écrire un texte, calculer les embeddings, et mesurer la similarité de ces embeddings avec ceux de la base.

Ca serait utile d'une part comme modalité d'ordre de présentation (au lieu de random ou active, présenter en priorité les observations les plus similaires, notamment pour amorcer la pompe), d'autre part comme sortie à part entière (exporter les scores de similarité).

Ça pose ensuite la question des embeddings, puisqu'il y a mieux que SBERT pour ces tâches là, notamment ceux issus de modèles génératifs, qui fonctionnent par jeux de deux, key et query. Mais bon dans un premier temps on peut rester sur fasttext et SBERT.

emilienschultz avatar Aug 27 '25 12:08 emilienschultz