効率的でコンパクトな視覚言語モデルの経験的レシピ

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、コンパクトな視覚言語モデルのエンドツーエンドの効率性分析を行い、推論とレイテンシの支配的なボトルネックを特定します。
最適化レシピを開発し、最初のトークンまでの時間（TTFT）を大幅に削減します。InternVL3-2B で 53%、SmolVLM-256M で 93% の削減を実現し、精度を保ちつつ、アーキテクチャやサービングフレームワークを横断して広く適用可能です。
構造化された知覚出力を備える新しいモデルファミリー ArgusVLM を提案します。コンパクトで効率的なまま高い性能を達成します。
本研究は、効率的な VLM システムの構築に関する実践的な指針を提供し、さまざまなベンチマークにわたるレシピの広範な適用性を示します。

要旨: 視覚言語モデル（VLMs）をリソース制約下で展開するには低遅延と高スループットが求められますが、既存のコンパクトなVLMsはしばしば、パラメータ数が小さいことが示唆する推論速度の向上には及びません。この不一致を説明するために、私たちは経験的なエンドツーエンドの効率分析を実施し、推論を体系的にプロファイリングして支配的なボトルネックを特定します。これらの知見に基づき、コンパクトなVLMsに適した最適化レシピを開発し、精度を保ちながらレイテンシを大幅に低減します。これらの手法により、InternVL3-2Bで最初のトークンまでの時間（TTFT）を53%、SmolVLM-256Mで93%短縮します。我々のレシピは、両方のVLMアーキテクチャと一般的な提供フレームワークの幅広い適用性を持ち、効率的なVLMシステムを構築するための実用的な指針を提供します。効率性を超えて、構造化された知覚出力を備えたコンパクトなVLMを拡張する方法を研究し、得られたモデルファミリーをArgusVLMとして導入します。多様なベンチマークにおいて、ArgusVLMは堅牢な性能を発揮しつつ、コンパクトで効率的な設計を維持します。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

2026年版 AIを活用した暗号資産ペーパートレード入門ガイド

Dev.to

状態の外部化

Dev.to

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

効率的でコンパクトな視覚言語モデルの経験的レシピ

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

2026年版 AIを活用した暗号資産ペーパートレード入門ガイド

状態の外部化

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer