要旨: 統一型マルチモーダルモデル(uMMs)は、共有表現の中で視覚理解と視覚生成の両方をサポートすることを目指します。しかし、既存の評価プロトコルはこれら2つの能力を独立に評価するだけで、意味的に整合しているかどうかは検討しません。その結果、視覚的概念が与えられたときに、現在のuMMsがタスク間でも一貫した、首尾一貫した統一表現を学習しているのかは依然として不明です。そこで本研究では、シーングラフに基づく評価フレームワークであるXTC-Benchを導入し、タスクをまたいだ視覚的意味的一貫性を測定します。構造化されたシーングラフから、生成プロンプトと理解のための問い合わせの両方を導出することで、対象・属性・関係にわたって事実レベルの整合性分析を可能にします。さらに、連続的クロスタスク一致(Continuous Cross-Task Agreement: CCTA)を提案します。これは、対応づけられた微小な原子事実(atomic facts)にわたって、生成と理解の間の意味的な一致度を定量化するきめ細かな指標であり、単体のタスク精度から内部整合性を切り分けます。8つのオープンソースと1つの商用の統一モデルに対する大規模実験の結果、高い生成性能または高い理解性能は、強いクロスタスク整合を意味しないことが示されました。また、アーキテクチャ分析により、一貫性は、単にアーキテクチャの統一性によってではなく、モダリティ間で学習目的がどれほど密に結び付けられているかによって支配されることが明らかになりました。XTC-Benchは、表現レベルのミスアラインメントを診断するための、再現可能でモデル非依存のフレームワークを提供し、孤立したタスク性能を超えて統一型マルチモーダルモデリングを前進させるための具体的な方向性を示します。
精度を超えて:統合型マルチモーダルモデルにおけるタスク間一貫性のベンチマーク手法
arXiv cs.CV / 2026/4/29
📰 ニュースModels & Research
要点
- 統合型マルチモーダルモデル(uMMs)は視覚の理解と生成を共有表現で扱うことを目指すが、既存のベンチマークは両能力のセマンティックな整合性を検証しておらず、概念に対して一貫した表現が学習されているか不明なままだ。
- 本論文では、シーングラフから生成プロンプトと理解クエリの両方を導出し、タスク間の視覚的セマンティック一貫性を測る評価枠組みXTC-Benchを提案する。
- さらに、生成と理解を対応する原子的事実(atomic facts)で突き合わせて評価する細粒度指標Continuous Cross-Task Agreement(CCTA)を提案し、単体の精度から内部の一貫性を切り分ける。
- 8つのオープンソースと1つの商用の統合モデルでの実験では、理解または生成の性能が高くてもタスク間アラインメントが強いとは限らないことが示され、アーキテクチャの統合だけでは一貫性は説明できない。
- 一貫性を左右するのは、モダリティ間での学習目的の結びつきの強さであるため、XTC-Benchを再現可能でモデル非依存な診断ツールとして公開し、隔離されたタスク性能に留まらない統合型マルチモーダルの発展方向を示す。


