入力適応型の深さ集約による、視覚言語ファインチューニングにおける推論コスト（Reasoning Tax）の軽減

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語の指示データに対する教師ありファインチューニングが知覚を改善する一方で推論を低下させ、ポストトレーニング中に「推論コスト（reasoning tax）」が生じることを見出している。

Abstract

視覚指示データに対する教師あり微調整（SFT）は、視覚言語モデル（VLM）の知覚能力をしばしば向上させる一方で推論性能を低下させ、ポストトレーニング中に継続的な「推論税（reasoning tax）」を生み出します。本研究では、この劣化が、深さ方向の（depth-wise）表現へのアクセスの妨害と関連しているのかを調査し、その結果、固定されたクロス深さ集約（cross-depth aggregation）でさえ推論を大幅に回復できることを見出しました。これは、VLMの微調整において重要な欠落要因が、クロス深さへのアクセスが保持されていることにあることを示唆しています。この観察に基づき、Input-Adaptive Depth Aggregation（IADA）を提案します。これは、クロス深さ検索（cross-depth retrieval）を入力に適応的（input-adaptive）にし、モダリティに応じた（modality-aware）ものにする、軽量な仕組みであり、低ランクのボトルネック（low-rank bottleneck）によって効率的にパラメータ化されます。Qwen3-VL-2Bにおいて、IADAは、追加パラメータが0.14MのみのLoRAのみ微調整と比較して、平均推論スコアを9.5ポイント、平均知覚スコアを