要旨: 視覚言語モデル(VLMs)をリソース制約下で展開するには低遅延と高スループットが求められますが、既存のコンパクトなVLMsはしばしば、パラメータ数が小さいことが示唆する推論速度の向上には及びません。この不一致を説明するために、私たちは経験的なエンドツーエンドの効率分析を実施し、推論を体系的にプロファイリングして支配的なボトルネックを特定します。これらの知見に基づき、コンパクトなVLMsに適した最適化レシピを開発し、精度を保ちながらレイテンシを大幅に低減します。これらの手法により、InternVL3-2Bで最初のトークンまでの時間(TTFT)を53%、SmolVLM-256Mで93%短縮します。我々のレシピは、両方のVLMアーキテクチャと一般的な提供フレームワークの幅広い適用性を持ち、効率的なVLMシステムを構築するための実用的な指針を提供します。効率性を超えて、構造化された知覚出力を備えたコンパクトなVLMを拡張する方法を研究し、得られたモデルファミリーをArgusVLMとして導入します。多様なベンチマークにおいて、ArgusVLMは堅牢な性能を発揮しつつ、コンパクトで効率的な設計を維持します。
効率的でコンパクトな視覚言語モデルの経験的レシピ
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、コンパクトな視覚言語モデルのエンドツーエンドの効率性分析を行い、推論とレイテンシの支配的なボトルネックを特定します。
- 最適化レシピを開発し、最初のトークンまでの時間(TTFT)を大幅に削減します。InternVL3-2B で 53%、SmolVLM-256M で 93% の削減を実現し、精度を保ちつつ、アーキテクチャやサービングフレームワークを横断して広く適用可能です。
- 構造化された知覚出力を備える新しいモデルファミリー ArgusVLM を提案します。コンパクトで効率的なまま高い性能を達成します。
- 本研究は、効率的な VLM システムの構築に関する実践的な指針を提供し、さまざまなベンチマークにわたるレシピの広範な適用性を示します。



