UVLM: 再現性のあるマルチモーダルベンチマークのためのユニバーサルビジョン-ランゲージモデルローダー

arXiv cs.LG / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • UVLMはGoogle Colabをベースとしたフレームワークで、複数のビジョン-ランゲージモデル(VLM)アーキテクチャを読み込み、設定し、ベンチマークするための統一インターフェースを提供し、モデル間のアーキテクチャ的異質性に対処します。
  • このツールは現在、LLaVA-NeXTとQwen2.5-VLをサポートしており、単一の推論関数を通じて、同一のプロンプトと評価プロトコルを用いた公正な比較を可能にします。
  • 主な機能には、4つの応答タイプを備えたマルチタスクプロンプトビルダー、過半数投票によるコンセンサス検証機構、最大1,500トークンまでの柔軟なトークン予算、ベンチマーク用の組み込みチェーン・オブ・ソート参照モードが含まれます。
  • UVLMは再現性とアクセス性を重視しており、Google Colab上でコンシューマーGPUを用いた自由なデプロイが可能で、120枚のストリートビュー画像コーパスを用いた、推論の複雑さが増すタスクにおけるVLM間の初のベンチマークを含みます。

要旨: Vision-Language Models (VLMs、視覚言語モデル) は画像理解タスクにおいて強力なツールとして台頭してきましたが、実用的な展開はモデルファミリ間の顕著なアーキテクチャ的多様性によって依然として阻まれています。
この論文は、UVLM (Universal Vision-Language Model Loader) を紹介します。Google Colab ベースのフレームワークで、カスタム画像分析タスクに対して複数の VLM アーキテクチャを読み込み、設定、ベンチマークを統一的なインタフェースで提供します。
UVLM は現在、二つの主要なモデルファミリをサポートしています -- LLaVA-NeXT と Qwen2.5-VL -- これらは視覚エンコード、トークナイズ、デコード戦略の点で本質的に異なります。
このフレームワークは、これらの違いを単一の推論関数の背後に抽象化し、研究者が同一のプロンプトと評価プロトコルを用いてモデルを比較できるようにします。
主な機能には、4つの応答タイプ(数値、カテゴリ、ブール、テキスト)をサポートするマルチタスクプロンプトビルダー、繰り返し推論の多数決に基づくコンセンサス検証機構、最大1,500トークンまでの柔軟なトークン予算により、プロンプトエンジニアリングを通じてカスタム推論戦略を設計できる機能、そしてベンチマーク用のチェーン・オブ・ソート思考参照モードを内蔵しています。
UVLM は再現性、アクセシビリティ、拡張性を念頭に設計されており、コンシューマーグレードの GPU リソースを用いた Google Colab 上で自由にデプロイできます。
さらに、本論文は、推論の複雑性が増すタスクに対して、120 枚のストリートビュー画像のコーパスを用いた異なる VLM の初めてのベンチマークを提示します。