검색 상세

MLLM의 VQA 성능 향상을 위한 시각 인코더 잔향 융합 연구

초록/요약

최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 텍스트와 이미지, 음성 등을 통합적으로 이해하고 처리하는 인공지능의 능력을 크게 향상시켰다. 그 중 비전 언어 모델(VLM)은 MLLM 중 시각 정보(이미지, 영상 등)와 텍스트를 동시에 이해하고 처리하는 방식으로 최근에도 계속 연구가 지속되고 있다. LLaVA, mPLUG-OWL 등 여러 벤치마크에서 우수한 성능을 보이고 있는 VLM이 최신 VLM으로 주목을 받고 있다. 그러나 이러한 VLM은 여전히 이미지 내 객체의 세부적인 형태, 경계, 위치 등을 정밀하게 인식하는 저수준 시각 인식(low-level visual perception) 측면에서 한계를 지니며, 이는 작은 객체나 복수 객체의 정밀 구분과 같은 과제에서 성능 저하로 이어진다. 본 연구에서는 이러한 한계를 극복하고자 VLM 기본 구조의 시각 인코더(Visual Encoder)를 하나가 아닌, 여러 개로 결합하여 성능을 향상시키고자 했다. 그러나 단순 결합만으로는 기대한 성능 향상을 얻지 못하였고, 오히려 특정 벤치마크에서 성능 저하가 발생하는 문제를 확인하였다. 이에 본 연구에서는 기존 시각 인코더와 새 시각 인코더의 출력을 잔향 융합(residual fusion) 방식으로 결합하여, 기존 표현의 안정성과 새로운 인코더의 세밀한 시각 정보를 동시에 활용하는 접근법을 제안한다. VQAv2, OK-VQA, VizWizQA, TextVQA 등의 벤치마크를 통해 제안한 방법을 평가한 결과, 특히 작은 객체, OCR, 복잡한 장면에서의 정밀 인식이 요구되는 과제에서 성능 향상이 확인되었다.

more

초록/요약

Recent advances in multimodal large language models (MLLMs) have greatly improved the ability of artificial intelligence systems to jointly understand and process text, images, speech, and other modalities. Among them, vision-language models (VLMs) are a class of MLLMs that simultaneously process and understand visual information (images, videos, etc.) and text, and they have continued to be actively studied in recent years. Vision-language models such as LLaVA and mPLUG-OWL, which achieve strong performance on various benchmarks, have attracted considerable attention as state-of-the-art VLMs. However, these VLMs still exhibit limitations in terms of low-level visual perception, such as accurately recognizing fine-grained object shape, boundaries, and spatial location within an image, which leads to performance degradation in tasks that require precise discrimination of small objects or multiple objects. In this work, we aim to overcome these limitations by combining not just a single visual encoder but multiple visual encoders within the base VLM architecture. However, we observe that naive combinations do not yield the expected performance gains and can even cause degradation on certain benchmarks. To address this, we propose an approach that combines the outputs of the original visual encoder and a new visual encoder via residual fusion, allowing us to simultaneously leverage the stability of the original representation and the fine-grained visual information provided by the additional encoder. Through evaluations on benchmarks such as VQAv2, OK-VQA, VizWizQA, and TextVQA, we demonstrate that the proposed method improves performance, particularly on tasks that require precise recognition of small objects, OCR, and complex scenes.

more

목차

제1장. Introduction 1
제1절. Background 1
1. Multimodal Large Language Models(MLLMs) 1
2. Vision Language Model(VLM) 1
제2절. Limitation 2
제3절. Motivation 2
제2장. Related work 4
제1절. mPLUG-OWL 3 4
제2절. LLaVA-1. 5
제3절. DINOv 2 5
제3장. Hypothesis 6
제1절. Residual Fusion 6
제4장. Method 7
제1절. Overall Architecture 7
제2절. Residual Fusion of Multiple Visual Encoders 7
1. Feature Alignment 7
2. Residual Fusion Formulation 8
제3절. Training Objective and Procedure 8
제5장 . Implementation 9
제1절. Base Model and Visual Encoders 9
제2절. Dataset 9
제6장. Ablation Study 10
제1절. Pre-Projector Fusion vs. Post-Projector Fusion 10
제2절. Impact of the Residual Scale 10
제7장. Conclusion 12
제1절. Conclusion 12
제2절. Quantitative Evaluation 12
제3절. Qualitative Evaluation 14
제4절. Strength 15
References 16
Abstract 18

more