MLLMは「欠けている内容」を読めるのか？

arXiv cs.AI / 2026/4/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、明示的なプロンプトに頼らずに視覚入力からマスクされたテキストを復元できるかを評価する新しいベンチマーク「MMTR-Bench」を提案している。
通常のビジュアル質問応答とは異なり、本タスクはテキスト復元を指示追従から切り離し、レイアウト理解・視覚的グラウンディング・知識統合に焦点を当てている。
MMTR-Benchには、文書やWebページといった実世界の領域から収集した、多言語で合計2,771件のテストサンプルが含まれ、対象テキストの長さも多様である。
多様性を考慮するためにレベルに応じた評価手順を提案しており、実験では特に文レベル・段落レベルの復元が大きな課題であることが示されている。

要旨: 本研究では、視覚的文脈からマスクされたテキストを直接復元する、マルチモーダル大規模言語モデル（MLLMs）の固有能力を評価するためのベンチマークであるMMTR-Benchを提案します。従来の質問応答タスクとは異なり、MMTR-Benchでは明示的なプロンプトを排除し、ドキュメントやWebページといった現実世界の領域において、単一ページまたは複数ページの入力からマスクされたテキストを復元することを求めます。この設計により、復元タスクを指示追従能力から切り離し、レイアウト理解、視覚的グラウンディング、知識統合に関するモデルの能力を直接的に評価できるようにします。MMTR-Benchは、複数言語にわたり、目標となる長さも異なる2,771件のテストサンプルで構成されています。この多様性を考慮するため、レベルを考慮した評価プロトコルを提案します。代表的なMLLMに対する実験の結果、このベンチマークは大きな挑戦課題となっており、特に文レベルおよび段落レベルの復元において顕著であることが示されます。ホームページは https://mmtr-bench-dataset.github.io/MMTR-Bench/ で利用可能です。