マルチモーダル大規模言語モデルは小さな物体を本当に理解できるのか?

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

要点

  • この論文は、これまでほとんど検証されてこなかったマルチモーダル大規模言語モデル(MLLMs)の「小さな物体の理解(SOU)」能力を評価する、初めての包括的ベンチマークとしてSOUBenchを提案している。
  • 著者らは、自動的なビジュアルQA生成手法により、6つのサブタスクと3つの主要シナリオ(走行中/空中/水中)をカバーする18,204件のVQAペアから成る評価データセットSOU-VQAを構築した。
  • 15の最先端MLLMを検証した結果、SOUにおいてそれらが弱い性能を示し、小さな物体理解が実際の限界であることを示唆している。
  • これに対処するため、11,226件のVQAペアからなるマルチモーダルトレーニングデータセットSOU-Trainを開発し、SOU-Trainでの教師あり微調整によりMLLMの小さな物体理解が改善できることを示した。
  • 本研究は、ベンチマークと学習用リソース(コード)をコミュニティに提供し、小さな物体推論に強いMLLMのさらなる開発を後押しするための実証基盤を与える。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は、画像・動画解析、数学・物理オリンピックなど多様な理解タスクにおいて有望な可能性を示しています。しかし、Small Object Understanding(SOU:小物体理解)タスクに対しては、依然として空白の領域であり、十分に探究されていません。このギャップを埋めるために、既存のMLLMの小物体理解能力を調べるための、初めてかつ包括的なベンチマークであるSOUBenchを提案します。具体的には、まず、効果的かつ自動的な視覚質問応答生成戦略を設計し、新たなSOU-VQA評価用データセットを構築します。これには18,204のVQAペア、6つの関連するサブタスク、そして3つの主要シナリオ(すなわち、Driving(運転)、Aerial(空中)、Underwater(水中))が含まれます。次に、最先端の15のMLLMに対して包括的な評価を行い、小物体理解におけるそれらの弱い能力を明らかにします。さらに、MLLMのSOU能力を高めるための、11,226のVQAペアからなるマルチモーダル学習データセットであるSOU-Trainを開発します。最新のMLLMに対する教師ありのファインチューニングを通じて、SOU-Trainが最新のMLLMの小物体理解能力を効果的に向上できることを示します。包括的な実験結果により、提案するSOUBenchとともに、SOU-VQAおよびSOU-Trainデータセットが、コミュニティに対し、小物体理解能力を強化したモデルをさらに発展させるための重要な実証的基盤を提供することが示されます。データセットとコード: https://github.com/Hanfj-X/SOU.