ITIScore:画像キャプション生成能力を評価するための、画像→テキスト→画像の評価フレームワーク

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、既存のベンチマークの欠点(キャプション長の多様性、近年のMLLMのカバー範囲、人手による注釈の充実度など)に対処することで、多モーダル大規模言語モデルをより適切に評価するための新しい大規模画像キャプションベンチマークであるICBenchを提案する。
  • ICBenchは2K枚の画像を用い、12のコンテンツカテゴリをカバーする。10の先進的なMLLMによりキャプションを生成し、合計40K件のキャプションを短文および長文の設定に分けて作成する。
  • 人手による主観評価実験により、細粒度の次元に対する平均オピニオン得点(MOS)が得られる。短文キャプションは流暢性・関連性・簡潔性で評価され、長文キャプションは流暢性・関連性・完全性で評価される。
  • 著者らは、自動化された画像→テキスト→画像の再構成整合性指標であるITIScoreを提案し、人間の判断との強い相関を示すとともに、他の公開キャプションデータセットへのゼロショットでの汎化も報告している。
  • 著者らは、出版時にデータセットと評価指標を公開すると述べている。

要旨: 多モーダル大規模言語モデル(MLLMs)における最近の進歩は、画像理解およびキャプション生成能力を大きく向上させてきました。しかし、既存の画像キャプションベンチマークには、キャプション長の多様性が限定的であること、最新の高度なMLLMが欠けていること、ならびに十分な人手による注釈がないことがよく見られ、その結果としてバイアスが導入され、現代のMLLMの性能を包括的に評価する能力が制限される可能性があります。これらの制限に対処するために、我々は新しい大規模画像キャプションベンチマークであるICBenchを提示します。ICBenchは12のコンテンツカテゴリをカバーし、2K枚の画像に対して10の高度なMLLMが短いキャプションと長いキャプションの両方を生成することで、合計40K本のキャプションから構成されます。さらに、細粒度の評価次元にわたって平均オピニオンスコア(MOS)を得るため、広範な人手による主観評価実験を実施します。短いキャプションは、流暢性・関連性・簡潔性の観点で評価し、長いキャプションは、流暢性・関連性・完全性の観点で評価します。加えて、画像からテキストへ、さらに画像へというフレームワークに基づく自動評価指標、\textbf{ITIScore}を提案し、再構成の一貫性を通じてキャプションの品質を測定します。実験結果は、提案する自動指標と人間の判断との間に強い整合性があること、ならびに他の公開キャプションデータセットに対して堅牢なゼロショット汎化能力を示すことを明らかにしています。データセットとモデルは、掲載時に公開されます。