About Problem

Idea

기존의, Qwen2.5-VL의 경우 임베딩 차원을 Temporal(t) / Horizontal(h) / Vertical(w) 그룹으로 chunking하였는데, 이러한 방식이 주파수 스펙트럼의 불균형을 초래하고, 긴 비디오에 대한 이해 능력을 저해되었다.
따라서, t, h, w를 저주파 및 고주파 대역 전반에 균등하게 분포시키는 interleaved 방식의 M-RoPE를 적용하였다.
또한, DeepStack과 Explicit video timestamp를 도입하였다.

Key Previous Papers

  • SigLIP-2 : SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features [PAPER]
  • CoMP : Continual Multimodal Pre-training for Vision Foundation Models [PAPER]
  • DeepStack : [PAPER]
  • Revisiting Multimodal Positional Encoding in Vision-Language Models [PAPER]
  • TimeMarker : A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability [PAPER]
  • Qwen3 : Qwen3 Technical Report [PAPER]

Model Architecture

보통의 LVLMs들은 LLM과 Vision Encoder로 구성된다. Qwen2-VL 또한, 해당 구성을 사용하였다.

LLM

Qwen3-VL의 LLM은 이름에서도 유추할 수 있다시피, Qwen3 LLM을 사용하였고, 4개의 Dense 모델(2B,4B,8B,32B)과 2개의 MoE 모델(30B-A3B,235B-A22B)에 대해서 학습을 진행하였다.

MLP-based Vision-Language Merger

단순 MLP 구조로 이루어져 있으며, 이미지/비디오의 feature sequence가 길어질 때 발생하는 문제를 해결하기 위함이다.
또한, Deepstack에서 아이디어를 얻어, Vision Encoder의 서로 다른 3 layer에서 visual token을 추출하여 LLM의 초기 layer에 더해주었다.

Vision Encoder

Qwen3-VL의 Vision Encoder는 지난 Qwen2-VL에서 사용하였던 DFN에서 파생된 ViT를 사용하였으나, Qwen3-VL에서는 SigLIP-2를 사용하였다. 물론, SigLIP-2를 그대로 사용하지는 않았고, 2D-RoPE를 도입하고, CoMP(Continual Multimodal Pre-training for Vision Foundation Models)를 도입하였다.

Explicit video timestamp

기존, Qwen2.5-VL에서 모델에 Temporal한 정보를 주입하기 위해 사용한 시간-동기화된 M-RoPE는 아래의 한계를 가졌다.

  1. Temporal Position ID를 절대 시간에 대해 직접 연결하여, 긴 비디오에 경우, ID가 지나치게 크고 희소하게 생성되어, long temporal context를 이해하는 능력이 저하되었음
  2. 효과적인 학습을 위하서는 다양한 fps에 대해 광범위하고 균등하게 분포된 샘플링이 필요하여, 데이터 구축 비용을 크게 증가시킴

따라서, 각 비디오의 temporal patch 앞에 <3.0 second>와 같은 형식화된 timestamp를 추가하였다.