マルチモーダル大規模言語モデルは小さな物体を本当に理解できるのか?
arXiv cs.CV / 2026/4/28
📰 ニュースModels & Research
要点
- この論文は、これまでほとんど検証されてこなかったマルチモーダル大規模言語モデル(MLLMs)の「小さな物体の理解(SOU)」能力を評価する、初めての包括的ベンチマークとしてSOUBenchを提案している。
- 著者らは、自動的なビジュアルQA生成手法により、6つのサブタスクと3つの主要シナリオ(走行中/空中/水中)をカバーする18,204件のVQAペアから成る評価データセットSOU-VQAを構築した。
- 15の最先端MLLMを検証した結果、SOUにおいてそれらが弱い性能を示し、小さな物体理解が実際の限界であることを示唆している。
- これに対処するため、11,226件のVQAペアからなるマルチモーダルトレーニングデータセットSOU-Trainを開発し、SOU-Trainでの教師あり微調整によりMLLMの小さな物体理解が改善できることを示した。
- 本研究は、ベンチマークと学習用リソース(コード)をコミュニティに提供し、小さな物体推論に強いMLLMのさらなる開発を後押しするための実証基盤を与える。



