GLEE
GLEE copied to clipboard
[CVPR2024 Highlight]GLEE: General Object Foundation Model for Images and Videos at Scale
Hi, there. I believe GLEE is a great work, thanks for open source! I have a question about object detection: what's the input to the decoder when used as a...
Have you tried to finetune the stage 2 model on COCO dataset and see the limit of the COCO performance?
跨图检测
您好,我试用了GLEE,非常棒的工作!想请教一下GLEE是否支持跨图的检测呢,具体来说,就是在第一张图像上给出scribble或者bbox,然后在另一张图像上检测第一张图上的所指目标。我看到视频有类似功能,请问是否也支持静态图像呢
GLEE在训练过程中,每个iter采样的数据都是来自相同数据集的吗?我发现task总是取batched_inputs[0],
Hi, Thanks for the solid work. Could you let me know when you'll release the training code?
Hi, I reproduced the inference script via the gradio script (app.py). But I get different object detection results with the same parameter.
in the hugging face demo, the expression prompt mode only output one object, even if there are multi same objects?
您好,GLEE是一个很棒的工作。同时,关于算法的一些细节,我有一些疑问想像您请教,如果您有空了,可以回复一下,感谢! 1. 我使用points作为视觉提示词,GLEE是否支持负点击?能否像SAM一样使用多次点击来对一个目标进行微调? 2. 我看您的代码实现,似乎会将points变为一个box作为提示,为什么要这么做?我没有在您的论文中找到相关的解释。 3. 视觉提示词返回的topk_instance是否只能为1?它能否分割出一个被遮挡目标的多个部分? 感谢!
github界面只给了图片任务的R50和SwinL2个版本的模型,然后我在huggingface上demo的files里面看到了视频任务的R50版本(visual prompt,`GLEE_vos_r50.pth`),想问下作者能不能开源一下视频任务的SwinL版本,是不是因为huggingface上使用的GPU跑不动所以才没放SwinL版本? 此外,关于使用的体验,我发现模型对于没学过的语言提示词效果很差,比如用custom-list不认识人头(head),输入human head才有可能给出比较差的结果。
您好,我使用了您的模型对 COCO 数据集进行测试,发现我得到的评估指标与paper的指标有差距。我想了解一下,现在提供的demo和完整测试过程之间是否存在某些差异?