maww-dev
maww-dev
Duringtesting two models, I encountered a question that results in failure. The question is: F0831 14:32:22.325904 15088 layer_factory.hpp:81] Check failed : registry.count(type) == 1(0 vs. 1) Unknown layer type: BilinearInterpolation(known...
采用huggingface方式,我封装了qwen2.5-vl-7b和qwen3-vl-8b的API接口,在文档OCR领域,我测试了几类场景,包括纯OCR以及文档信息抽取,经对比测试,我发现测试结论与官方的测试不一致,具体如下: 1、qwen3-vl-8b在运行速度上稍微比qwen2.5-vl-7b慢一点,大概10%左右; 2、两者的提示词不能通用,在qwen2.5-vl-7b上调整比较好的提示词直接放到qwen3-vl-8b上,信息提取准确率降低大概一半左右; 3、在两个模型上各自调整自己的提示词,在信息抽取效果上,整体来说,qwen2.5-vl-7b在60-70%的字段上准确率高于qwen3-vl-8b; 4、在纯OCR方面,尤其是一些长串数字的识别方面,我发现qwen3-vl-8b容易识别漏掉一些重复的数字; 我的核心推理代码如下所示,请大家帮我看下在哪里可以优化: text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) # 并行处理视觉信息(图像/视频特征提取) images, videos, video_kwargs = process_vision_info( messages, image_patch_size=16, return_video_kwargs=True, return_video_metadata=True ) if videos is not None: videos, video_metadatas...