上海AI Lab开源首个可替代GPT-4V的多模态大模型

与开源和闭源模型相比，InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。

上海AI Lab 推出的 InternVL 1.5 是一款开源的多模态大语言模型 (MLLM)，旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。

论文称，InternVL 1.5 在四个特定基准测试中超越了 Grok-1.5V、GPT-4V、Claude-3 Opus 和 Gemini Pro 1.5 等领先的闭源模型，特别是在与 OCR 相关的数据集中。

GPT-3.5研究测试：

yeschat

GPT-4研究测试：

Hello, LLMs

Claude-3研究测试（全面吊打GPT-4）：

AskManyAI

论文用下面一张图非常生动地展示了他们为 达到 AGI 星球 所做的努力：

图中主要涉及 InternVL 的三个改进：（1）强视觉编码器：为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略，提高了其视觉理解能力，并使其可以在不同的LLM中迁移和重用。（2）动态高分辨率：根据输入图像的长宽比和分辨率，将图像划分为1到40个448×448像素的图块，最高支持4K分辨率输入。（3）高质量的双语数据集：收集了高质量的双语数据集，涵盖常见场景、文档图像，并用英文和中文问答对进行注释，显着提高了 OCR 和中文相关任务的性能。

总体的结构则是采用与流行的多模态大模型类似的 ViT-MLP-LLM 架构，通过MLP映射器将预训练好的InternViT-6B与InternLM2-20b结合在一起。同时还使用一个简单的Pixel Shuffle 技巧将视觉标记的数量减少到四分之一。

对于动态高分辨率，研究人员则是从预定义的比例中动态匹配最佳宽高比，将图像划分为448×448像素大小的块，并为全局上下文创建缩略图。该方法最大限度地减少了纵横比失真，并在训练期间适应不同的分辨率。

▲图4.动态分辨率。

在训练过程中，视觉标记的数量范围为 256 到 3,328。在测试过程中，图块数量最多可以增加到 40 个，从而产生 10,496 个视觉标记，从而实现最高4K分辨率的输入。

论文中也提供了模型在预训练和微调阶段使用的各类任务以及对应的数据集，并且都是公开数据集。为了构建大规模 OCR 数据集，研究人员还利用 PaddleOCR 对 Wukong 数据集的图像执行中文 OCR，对 LAION-COCO 数据集的图像执行英文 OCR。

▲图5.(a) 预训练阶段使用的数据集

▲图5.(b) 微调阶段使用的数据集。

而InternVL 1.5 的具体性能表现如何？如下图所示，InternVL 1.5 在大多数基准测试中都表现出领先的性能！

▲图6.在 16 个多模式基准上与 SoTA 模型进行比较。

与 TextMonkey、DocOwl-1.5 和 LLaVA-NeXT 等其他开源模型相比，InternVL 1.5 在这些基准测试中显着缩小了与专有模型的差距。

然而，虽然 InternVL 1.5 超越了 MM1，并且在 MMMU 上与 Gemini Pro 1.0 相当，但它比其前身 InternVL 1.2 略有下降。作者也对此进行了分析，并称这可以被认为是适当的降低，且可以归因于语言模型规模较小，这种现象也可以在下图中的 MMT-Bench 结果中观察到。