视觉语言模型正在迅速成熟,但它们仍然存在一些局限性,特别是在空间理解和长上下文视频理解方面。
多数 VLM 采用基于 CLIP 的模型作为视觉编码器,输入图像大小被限制为 224x224 或 336x336。这种较小的输入图像导致小物体和细节很难被检测到。例如,视频的高清 1080x1920 帧必须压缩或裁剪为更小的输入分辨率,导致很难保留小物体或精细的细节。为了解决这个问题,VLM 开始使用平铺方法,将大图像分解成更小的块,然后输入到模型中。目前还在进行研究,探索使用更高分辨率的图像编码器。
VLM 也难以提供物体的精确位置。基于 CLIP 的视觉编码器的训练数据主要由图像的简短文本描述 (如标题) 组成。这些描述不包括详细的、细粒度的物体位置,这种限制会影响 CLIP 的空间理解。采用其作为视觉编码器的 VLM 继承了这一限制。新的方法正在探索集成多个视觉编码器来克服这些限制 2408.15998 (arxiv.org)。
长视频理解是一项挑战,因为需要考虑长达数小时的视频中的视觉信息才能正确分析或回答问题。与 LLM 一样,VLM 具有有限的上下文长度含义——只能涵盖视频中的一定数量的帧来回答问题。目前正在研究增加上下文长度和在更多基于视频的数据上训练 VLM 的方法,例如 LongVILA 2408.10188 (arxiv.org)。
对于非常具体的用例 (例如,在特定产品线中发现制造缺陷) 而言,VLM 可能没有看到足够的数据。这些限制可以通过在特定领域的数据上微调 VLM 来克服,或者使用带有上下文学习的多图像 VLM 来提供示例,这些示例可以在不显式训练模型的情况下传授模型新的信息。使用 PEFT 对特定领域数据进行模型训练是另一种可用于提高 VLM 在自定义数据上准确性的技术。