[PAPER] Qwen3-VL Technical Report

February 16, 2026

About Problem

Idea

기존의, Qwen2.5-VL의 경우 임베딩 차원을 Temporal(t) / Horizontal(h) / Vertical(w) 그룹으로 chunking하였는데, 이러한 방식이 주파수 스펙트럼의 불균형을 초래하고, 긴 비디오에 대한 이해 능력을 저해되었다.
따라서, t, h, w를 저주파 및 고주파 대역 전반에 균등하게 분포시키는 interleaved 방식의 M-RoPE를 적용하였다.
또한, DeepStack과 Explicit video timestamp를 도입하였다.

Key Previous Papers

SigLIP-2 : SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features [PAPER]
CoMP : Continual Multimodal Pre-training for Vision Foundation Models [PAPER]
DeepStack : [PAPER]
Revisiting Multimodal Positional Encoding in Vision-Language Models [PAPER]
TimeMarker : A Versatile Video-LLM for Long and Short Video Understanding with Superior Temporal Localization Ability [PAPER]
Qwen3 : Qwen3 Technical Report [PAPER]

Model Architecture

보통의 LVLMs들은 LLM과 Vision Encoder로 구성된다. Qwen2-VL 또한, 해당 구성을 사용하였다.

LLM

Qwen3-VL의 LLM은 이름에서도 유추할 수 있다시피, Qwen3 LLM을 사용하였고, 4개의 Dense 모델(2B,4B,8B,32B)과 2개의 MoE 모델(30B-A3B,235B-A22B)에 대해서 학습을 진행하였다.

MLP-based Vision-Language Merger

단순 MLP 구조로 이루어져 있으며, 이미지/비디오의 feature sequence가 길어질 때 발생하는 문제를 해결하기 위함이다.
또한, Deepstack에서 아이디어를 얻어, Vision Encoder의 서로 다른 3 layer에서 visual token을 추출하여 LLM의 초기 layer에 더해주었다.

Vision Encoder

Qwen3-VL의 Vision Encoder는 지난 Qwen2-VL에서 사용하였던 DFN에서 파생된 ViT를 사용하였으나, Qwen3-VL에서는 SigLIP-2를 사용하였다. 물론, SigLIP-2를 그대로 사용하지는 않았고, 2D-RoPE를 도입하고, CoMP(Continual Multimodal Pre-training for Vision Foundation Models)를 도입하였다.

Explicit video timestamp

기존, Qwen2.5-VL에서 모델에 Temporal한 정보를 주입하기 위해 사용한 시간-동기화된 M-RoPE는 아래의 한계를 가졌다.

Temporal Position ID를 절대 시간에 대해 직접 연결하여, 긴 비디오에 경우, ID가 지나치게 크고 희소하게 생성되어, long temporal context를 이해하는 능력이 저하되었음
효과적인 학습을 위하서는 다양한 fps에 대해 광범위하고 균등하게 분포된 샘플링이 필요하여, 데이터 구축 비용을 크게 증가시킴

따라서, 각 비디오의 temporal patch 앞에 <3.0 second>와 같은 형식화된 timestamp를 추가하였다.

Share on

X Facebook LinkedIn

[PAPER] Qwen3-VL Technical Report

About Problem

Idea

Key Previous Papers

Model Architecture

LLM

MLP-based Vision-Language Merger

Vision Encoder

Explicit video timestamp

Share on

You may also enjoy

[PAPER] Qwen2.5-VL Technical Report

[PAPER] Visual Instruction Tuning

[MATH] Real number and Complex number

[MATH] Hermitian Symmetry & Wide definition of Vector space