eval-scope 如何进行图像-文本通过CLIP嵌入在同一Embedding空间进行测试？

功能描述 / Feature Description

您好，现在我在评测多模态RAG的检索和生成时遇见了问题：我们的数据集模态多样，既有文本(text)，也有图像(image)，现在想构建image_queries.jsonl的时候发现，该queires构建只能为：纯文本：queries.jsonl 纯图像：image_queries.jsonl 但是对于图像、文本混合的并没有涉及到检索方式。（事实上这很容易，因为CLIP能够实现图像、文本嵌入到同一空间）

需求背景 / Background

我们新的工作引用到了您的评测工具和方法，但是无法在关键实现：混合数据下的RAG。因此希望您能更新方法，或者提供混合检索评测的queries.jsonl构建

预期行为 / Expected Behavior

这个功能可以混合图像、文本，比如： {"_id": "doc4", "text": "随着技术的进步，风能和太阳能等可再生能源变得越来越普及。"} {"image_path": "custom_eval/multimodal/images/AMNH.jpg", "query": ["building"]} 然后可以自动进行评测

其他信息 / Additional Information

还有其他相关信息吗？ / Any other relevant information?

Jan 02 '25 12:01 Nomothings

你是希望可以评测CLIP模型的文本、图像混合检索能力吗

Jan 02 '25 12:01 Yunnglin

是的是的没错，就是图像和文本通过CLIP嵌入到一个库中评测

Jan 02 '25 13:01 Nomothings

好的，我们会尽快补充这部分功能

Jan 03 '25 02:01 Yunnglin

好的感谢，期待您和团队的更新

Jan 03 '25 06:01 Nomothings