BARD:高効率な段階的ブロック統合と段階別蒸留で、自己回帰と拡散のビジョン言語モデルを橋渡しする

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、事前学習済みの自己回帰型ビジョン言語モデルを、品質低下を抑えつつデコード効率の高い拡散VLM(dVLM)へ変換する枠組みBARDを提案している。
  • BARDは、デコードのブロックサイズを段階的に拡大する「段階的な教師ありブロック統合」と、大きなブロックで失われた性能を回復するための「固定小ブロック拡散アンカーからの段階別(ステージワイズ)dVLM内蒸留」を組み合わせる。
  • 混合ノイズスケジューラにより頑健性とデノイジング中のトークン修正を改善し、長いマルチモーダル系列で効率的に学習できるようメモリフレンドリーな学習手法も取り入れている。
  • 著者らは、自己回帰レジームから拡散レジームへ直接蒸留するのは整合性が悪く性能を下げ得る一方、拡散レジーム内での蒸留は一貫して有効だと報告している。
  • Qwen3-VLからの能力移転実験では、≤4.4Mデータで強いマルチモーダル性能が得られ、4B/8Bスケールで同規模のオープンdVLM群における新SOTAを達成し、さらに出発モデル比で最大3倍のデコードスループット向上を示している。

要旨: 自己回帰型の視覚言語モデル(VLM)は強力なマルチモーダル能力を発揮しますが、トークンごとのデコードは根本的な推論ボトルネックを課します。拡散VLMはより並列なデコードというパラダイムを提供しますが、事前学習済みの自己回帰VLMを大規模ブロックの拡散VLM(dVLM)へ直接変換すると、しばしば大幅な品質劣化につながります。本研究では、事前学習済みの自己回帰VLMを同一アーキテクチャで、デコード効率の高いdVLMへ変換するシンプルで効果的なブリッジングフレームワークであるBARDを提案します。提案手法は、デコードブロックサイズを段階的に拡大する逐次的な教師ありブロック統合(progressive supervised block merging)と、より大きいブロックで失われた性能を回復するために、固定された小ブロック拡散アンカーからの段階的なdVLM内部蒸留(stage-wise intra-dVLM distillation)を組み合わせます。さらに、ノイズスケジューラの混合(mixed noise scheduler)を取り入れて頑健性と、デノイジング中のトークン改訂を改善し、長いマルチモーダル系列で効率的に学習できるメモリフレンドリーな学習も実現します。重要な経験的発見は、自己回帰から拡散への直接蒸留は整合が不十分であり、場合によっては性能を損なう一方で、拡散レジーム内での蒸留は一貫して有効であることです。実験結果から、9\leq 4.4M データで、BARD-VLはQwen3-VLから大規模ブロックdVLMへ強力なマルチモーダル能力を転送できることが示されます。さらに驚くべきことに、BARD-VLは、評価スイートにおいて4Bおよび8Bスケールの両方で、同程度のスケールのオープンdVLMの間で新たなSOTAを確立します。同時に、BARD-VLはソースモデルに比べて最大で
\textbf{3\times} のデコードスループット向上を達成します。