InternVL ocr data label

hi，想请教下ocr data在预训练和sft阶段的具体label是怎样产生的？

看了前面很多问题提到ocr的监督为'\ntext1\ntext2\ntext3', 比如#536、#49,但是都没有提到如何组织顺序的。是按照从左到右从上到下的启发式规则进行排序还是通过模型构建具体的顺序。启发式规则在遇到一些奇怪结构的时候容易打乱语序，这样的监督是否反而会损害模型的性能哇？

第二个就是看前面#239提到有部分带坐标框的ocr训练数据，想请教下带框ocr和不带框ocr的数据比例方便透露么？

非常感谢!

Sep 11 '24 08:09 xiaohuicomeon

您好，我记得当时是按照从左到右从上到下的顺序处理的，因为只监督模型提取OCR特征的能力，我觉得打乱语序的关系不大。

另外，除了最初的一段时间，大部分的训练都不使用带框的OCR数据了。在我们的预训练阶段，由于不打开LLM，训练坐标难以收敛；在SFT阶段打开了LLM，大量的坐标训练会显著破坏LLM的原始语言能力。

Sep 18 '24 04:09 czczup

另外我打算把预训练用的两个Wukong-OCR和LaionCOCO-OCR开源了，就是这两个都特别大，整理和上传到HF还需要一些时间。

Sep 18 '24 04:09 czczup

另外我打算把预训练用的两个Wukong-OCR和LaionCOCO-OCR开源了，就是这两个都特别大，整理和上传到HF还需要一些时间。

你好，看到huggingface上有这俩数据集，但是都是空的，是还在上传中吗，预计多久可以上传完成呢？谢谢

Sep 23 '24 10:09 wucx888

另外我打算把预训练用的两个Wukong-OCR和LaionCOCO-OCR开源了，就是这两个都特别大，整理和上传到HF还需要一些时间。

你好，看到huggingface上有这俩数据集，但是都是空的，是还在上传中吗，预计多久可以上传完成呢？谢谢

因为人手不足还没开始传，应该会在国庆假期的时候传完。

Sep 25 '24 06:09 czczup

在我们的预训练阶段，由于不打开LLM，训练坐标难以收敛；在SFT阶段打开了LLM，大量的坐标训练会显著破坏LLM的原始语言能力。

嗯嗯，感谢您的回复。。这里主要是发现internvl chat demo在一些多列场景，internvl也能够按列输出，感觉和预训练的(按行输出)数据组织不太一致，请问这里sft数据有加上这种按语义输出的精标数据么？

Sep 30 '24 04:09 xiaohuicomeon

另外我打算把预训练用的两个Wukong-OCR和LaionCOCO-OCR开源了，就是这两个都特别大，整理和上传到HF还需要一些时间。

你好，看到huggingface上有这俩数据集，但是都是空的，是还在上传中吗，预计多久可以上传完成呢？谢谢

因为人手不足还没开始传，应该会在国庆假期的时候传完。

问下这两个OCR的数据什么时候可以开源呀

Oct 28 '24 08:10 guanyanchu

@czczup 请问这两个数据集最近有计划传完吗？

Nov 04 '24 08:11 FUJIsyu0515

@czczup 大佬请问这个数据大概什么会开源呀

Jan 07 '25 09:01 royzhang12

@czczup 看完大佬的论文收获良多，请问这两个OCR数据集还有下文吗

Jun 11 '25 05:06 rezign