InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型

Results 461 InternVL issues
Sort by recently updated
recently updated
newest added

### Checklist - [x] 1. I have searched related issues but cannot get the expected help. - [x] 2. The bug has not been fixed in the latest version. -...

Hi, could you open the sft and pre-trained codes , especially the code of Native Multimodal Pre-Training

InternVL3做目标检测,返回的坐标不是原图的坐标,偏移很大, 14B 8B都是一样的结果 图片 ![Image](https://github.com/user-attachments/assets/75fdd40f-0cdc-46ac-81eb-74a24d22d873) prompt: "你是一个高级视觉分析模型,请严格按照步骤执行: 1. 检测图像中所有人物,生成每个人的边界框坐标(格式:x1,y1,x2,y2,基于像素值)。 3. 输出严格的JSON格式,包含以下字段: { "persons": [ { "bbox": [x1, y1, x2, y2] }, ... ] } " 输出 ` { "persons": [...

### Motivation 我好像用internvl2_8B的代码训不了Intervl3_8B,但是internvl2_8B的代码训练internvl2.5_8B没有问题 ### Related resources _No response_ ### Additional context _No response_

### 📚 The doc issue 请问InternVL3与Instruct版本的区别是否基座LLM模型是否使用了Instruct版本。比如像8B,普通版本文档里写的是Qwen2.5-7B,那么Instruct版本是否对应的LLM是Qwen2.5-7B-Instruct? ### Suggest a potential alternative/fix _No response_

任务背景: 我做了一个目标检测任务,其中包含多项目标检测类别,该任务中的类别大部分是一些事件(特定场景中的人或物满足某种状态)。 使用模型:InternVL2_5_MPO 训练阶段,设计训练prompt: 由于这些类别大部分都是事件,比较特殊,并不类似于“猫”、“狗”等通用类别;进而,该任务的类别需要精准描述且描述语句通常较长;因此,为了减少模型预测时的输入token数,训练样本的prompt采用都两轮对话的形式:先询问并回答类别定义,后询问并回答类别坐标框(模型预测时只使用后者问答,以减少输入token)。 训练prompt示例: [{"from": "human", "value": "在xxx场景中,以下事件的定义是什么?请使用json格式回答:\n事件a\n事件b\n事件c"}, {"from": "gpt", "value": "{'事件a': '事件a的定义或描述', '事件b': '事件b的定义或描述', '事件c': '事件c的定义或描述'}"}, {"from": "human", "value": "\n请查看图像,根据xxx场景下的事件定义,提供下列所有事件的区域的边界框坐标(未发生事件的边界框坐标为空):\n事件a\n事件b\n事件c"}, {"from": "gpt", "value": "事件a[]\n事件b[[110,220,330,440]]\n事件c[[110,220,330,440],[10,20,30,40]]\n"}] 另外,为了提高模型对单个事件的理解,我会放入对单个事件的问答,prompt格式如上。 验证阶段结果: 单个事件检测:precision精准度低,recall召回高。我发现bbox框中的错误情况有两种:1....

### 📚 The doc issue 请问,什么时候会开源 Native Multimodal Pre-Training 部分的代码呀、。 ### Suggest a potential alternative/fix _No response_

### Checklist - [x] 1. I have searched related issues but cannot get the expected help. - [x] 2. The bug has not been fixed in the latest version. -...

### Checklist - [X] 1. I have searched related issues but cannot get the expected help. - [X] 2. The bug has not been fixed in the latest version. -...

### Motivation internvl3有GUI agent的官方调用prompt么? ### Related resources _No response_ ### Additional context _No response_