Add lightweight RAG for trainset
Possibility to use an open prompt to search the vector database (for instance : https://ganeshs.hypotheses.org/)
Necessity to better manage the model used to create the vector to allow compatibility
Proposition précédente de @jboelaert
On pourrait intégrer une fonctionnalité "information retrieval". Typiquement : laisser l'utilisateur écrire un texte, calculer les embeddings, et mesurer la similarité de ces embeddings avec ceux de la base.
Ca serait utile d'une part comme modalité d'ordre de présentation (au lieu de random ou active, présenter en priorité les observations les plus similaires, notamment pour amorcer la pompe), d'autre part comme sortie à part entière (exporter les scores de similarité).
Ça pose ensuite la question des embeddings, puisqu'il y a mieux que SBERT pour ces tâches là, notamment ceux issus de modèles génératifs, qui fonctionnent par jeux de deux, key et query. Mais bon dans un premier temps on peut rester sur fasttext et SBERT.