港中深科研

研究采用高质量数据训练轻量级LVLMs缩小性能差距:以ALLaVA - 3B为例

研究采用高质量数据训练轻量级LVLMs缩小性能差距:以ALLaVA - 3B为例

研究采用高质量数据训练轻量级LVLMs缩小性能差距:以ALLaVA - 3B为例

大型视觉-语言模型虽然能够处理多种形式的输入,然而,它们在端侧设备上运行时所需的计算资源非常庞大。这种矛盾之处,就好比一道宽阔的鸿沟,横亘在多模态模型的发展道路上。传统长版本LVLMs在性能上有所长,而轻量级版本则在资源消耗上更胜一筹。举例来说,某公司内部进行图像识别时,传统LVLMs的准确率较高,而轻量版则与之有较大差距。

大型视觉-语言模型虽然能够处理多种形式的输入,然而,它们在端侧设备上运行时所需的计算资源非常庞大。这种矛盾之处,就好比一道宽阔的鸿沟,横亘在多模态模型的发展道路上。

多模态模型的计算资源困境

多模态模型进展很快,但它们在端侧设备上所需的计算资源却难以得到满足。以移动设备为例,那些复杂的大规模视觉-语言模型往往难以在它们上运行。这种情况严重制约了技术的普及应用。此外,在偏远地区,由于网络不畅和设备配置较低,这些需要大量计算资源的模型更是无法使用。

从用户实际体验来看,众多用户希望能在现有的设备上享受多模态服务,比如在他们的旧平板上实现图像与语言的互动。然而,当前模型对资源的较高需求使得他们感到难以实现。

传统LVLMs与轻量版的差距

传统长版本LVLMs在性能上有所长,而轻量级版本则在资源消耗上更胜一筹。通常,它们在性能上会有明显差异。例如,一些传统的较大模型在识别视觉元素和进行视觉推理方面表现得较为出色。

轻量版本由于诸多限制,性能表现不佳。举例来说,某公司内部进行图像识别时,传统LVLMs的准确率较高,而轻量版则与之有较大差距。因此,迫切需要找到一种方法来缩小这种差距,以适应各种不同的环境需求。

高质量合成数据集的构建

为了增强轻量级多模态模型的性能,我们制作了一个高质量的合成数据集,这个数据集以GPT-4V为技术支撑。数据集中包含了带有详尽文字说明的图文组合。比如,针对一张包含多种动物的图片,文字描述会详尽地说明动物的数量和具体位置等细节。

这样的数据集有助于模型获取更丰富的信息。在构建过程中,需综合考虑多个要素,比如图片主题的丰富性、文本描述的精确度等。在美国的一些数据挖掘企业里,在构建类似数据集时,常常会邀请众多专家来对数据质量进行评估。

港中文深圳录取分数线2024_港中文深圳_港中文深圳校区

新模型的性能表现

利用新构建的训练数据,我们训练出了3B轻量级的多模态模型。在3B规模LVLMs的12个测试场景中,它展现出了较强的竞争力。以某个视觉问答场景为例,它的回答准确度可以与更大型号的模型相提并论。

在与LLaVA - v1.5 - 13B的对比中,它在某些测试点上的表现不相上下。这说明3B模型在利用高质量训练数据方面收获颇丰,且在构建LVLM时,基于base模型的效果显著。

港中文深圳录取分数线2024_港中文深圳_港中文深圳校区

现有工作的不足

港中文深圳_港中文深圳录取分数线2024_港中文深圳校区

在目前的工作中,语言模型在处理图像与文本对齐时遇到了问题。多数数据既简短又粗糙,产生了不少干扰信号。以COCO图像和文本对为例,它们之间的跨模态联系不够紧密,这限制了在这一基础上合成高质量数据的能力。

现在不少视觉指令调整的数据集更侧重于基础技能的培养,例如某些指令集仅增强了简单图形的辨识能力,而对复杂推理这类高级技能的关注不足。这种做法并不符合现实需求,因为实际应用中对于复杂推理的需求正在不断上升。

克服模型遗忘并发挥数据优势

港中文深圳_港中文深圳校区_港中文深圳录取分数线2024

为了解决模型可能出现的严重遗忘文本的问题,我们使用了GPT-4-Turbo来重新构建指令数据集的回答内容。这样的做法使得数据集整体质量得到了提升。

这个数据集包含700K张图片和1.5M的总样本量,其中涵盖了文本数据。它是目前用于LVLM训练的最大规模开源高质量GPT-4V数据集。如此庞大的数据规模,为模型训练提供了坚实的支持。

港中文深圳录取分数线2024_港中文深圳_港中文深圳校区

大家对这款轻量型多模式模型在将来可能取得的成就有何见解?欢迎留言交流,同时不妨给文章点个赞,或者转发分享。

更多内容