eval-scope icon indicating copy to clipboard operation
eval-scope copied to clipboard

如何进行图像-文本通过CLIP嵌入在同一Embedding空间进行测试?

Open Nomothings opened this issue 1 year ago • 4 comments

功能描述 / Feature Description

您好,现在我在评测多模态RAG的检索和生成时遇见了问题: 我们的数据集模态多样,既有文本(text),也有图像(image),现在想构建image_queries.jsonl的时候发现,该queires构建只能为: 纯文本:queries.jsonl 纯图像:image_queries.jsonl 但是对于图像、文本混合的并没有涉及到检索方式。(事实上这很容易,因为CLIP能够实现图像、文本嵌入到同一空间)

需求背景 / Background

我们新的工作引用到了您的评测工具和方法,但是无法在关键实现:混合数据下的RAG。因此希望您能更新方法,或者提供混合检索评测的queries.jsonl构建

预期行为 / Expected Behavior

这个功能可以混合图像、文本,比如: {"_id": "doc4", "text": "随着技术的进步,风能和太阳能等可再生能源变得越来越普及。"} {"image_path": "custom_eval/multimodal/images/AMNH.jpg", "query": ["building"]} 然后可以自动进行评测

其他信息 / Additional Information

还有其他相关信息吗? / Any other relevant information?

Nomothings avatar Jan 02 '25 12:01 Nomothings

你是希望可以评测CLIP模型的文本、图像混合检索能力吗

Yunnglin avatar Jan 02 '25 12:01 Yunnglin

是的是的没错,就是图像和文本通过CLIP嵌入到一个库中评测

Nomothings avatar Jan 02 '25 13:01 Nomothings

好的,我们会尽快补充这部分功能

Yunnglin avatar Jan 03 '25 02:01 Yunnglin

好的感谢,期待您和团队的更新

Nomothings avatar Jan 03 '25 06:01 Nomothings