CogCoM icon indicating copy to clipboard operation
CogCoM copied to clipboard

Results 22 CogCoM issues
Sort by recently updated
recently updated
newest added

hi,感谢你们开创性的工作,我注意到在cogcom中的steps中包含`grounding,crop_and_zoomin,counting,OCR`等func操作,根据项目需要,我希望在里面添加可以**检测关键点**的fun操作,如`pose`操作,其形式为`[x1,y1,x2,y2,kpt1,kpt2]`,其中,`kpt1`和`kpt2`为目标的关键点坐标,请问添加关键点func操作除在生成com数据时需要进行一定的修改,在**finetuning**时是否需要修改finetuning部分的代码? @erjanmx @Sleepychord @cenyk1230 @Btlmd @1049451037

我注意到了你们开创性的工作,我想知道你们的 synthesized CoM data是开源的吗?

Hi, 感谢你们开创性的工作!我注意到 CogCom 通过连接 grounding dino 实现 grouding,请问怎么控制模型输出的 bounding box 数量呢,目前模型只输出 top1 的 bounding box

When I run `CUDA_VISIBLE_DEVICES=0,1 torchrun --standalone --nnodes=1 --nproc-per-node=2 cli_demo_sat.py --from_pretrained cogcom-base-17b --local_tokenizer tokenizer --english --fp16 (--quant 4)`, and test certain pictures, 50% of them will lead to exception, so I...

Excuse me, but when the model inference on 1 * RTX4090, running `python cli_demo_sat.py --from_pretrained cogcom-base-17b --local_tokenizer tokenizer --english --quant 4`, the output will be CUDA out of memory. I...

Thanks for the great work! I am concern about the computation cost. CogCom will result in how much increase in training costs and inference time?

由于显卡限制,4张2080Ti 自己部署的Int4,但是效果不是很理想,什么时候能够提供Demo验证~

我注意到你们chat.py文件里面219行: get_func = text_processor.get_func(inputs, **inputs_dic) if hasattr(text_processor, 'get_func') else get_masks_and_position_ids_default 可是如果我一开始没有输入图,image_position < 5,那么inputs_dic不会被赋值text_processor(new_prompt) (205行),就会报错“在变量定义之前使用” 请问这个怎么解决啊,谢谢