要旨: 現在のビデオ・モーメント検索はアクション中心のタスクでは優れていますが、物語(ナラティブ)の内容では苦戦します。モデルは extit{何が起きているか} を見ることはできますが、それが extit{なぜ重要なのか} を推論できません。このセマンティックなギャップは、 extbf{心の理論(ToM: Theory of Mind)} の欠如に起因します。すなわち、表面的な観察から、暗黙の意図・心的状態・物語の因果関係を推測するための認知能力です。私たちは extbf{StoryTR} を提案します。これは、ToM推論を要求する最初のビデオ・モーメント検索ベンチマークであり、物語性のあるショート形式動画(shorts/reels)から 8.1k サンプルで構成されます。これらの動画は理想的な検証の場を提供します。情報密度が高いため、意味が微妙なマルチモーダルの手がかりに符号化されています。たとえば、視線にため息が組み合わさると、視線だけとはまったく異なる意味になります。しかし、マルチモーダル知覚だけでは不十分です。登場人物が「笑っている」のが実は「敵意を隠している」可能性があることを読み解くには、ToM が必要です。この推論能力をモデルに学習させるために、明示的な3階層のToMチェーン(意図デコーディング、物語推論、境界ローカリゼーション)で学習データを生成する extbf{Agentic Data Pipeline(エージェント型データパイプライン)} を提案します。実験により、推論ギャップの深刻さが明らかになります。Gemini-3.0-Pro は StoryTR で 0.53 の Avg IoU しか達成できません。一方で、ToM誘導データで学習した私たちの 7B extbf{Shorts-Moment} モデルは、ベースラインに対して相対的に +15.1 r% の IoU 改善を示し、 extit{物語推論能力はパラメータ規模より重要である} ことを実証しています。
StoryTR:心の理論(ToM)推論を用いた物語中心の動画時間的リトリーバル
arXiv cs.AI / 2026/4/28
📰 ニュースModels & Research
要点
- 本論文は、既存の動画モーメント検索モデルが物語(ナラティブ)内容でうまく機能しないのは、「何が起きているか」は分かっても「なぜそれが重要か」を推論できないためであり、その原因は表層観測から暗黙の意図・心的状態・物語の因果関係を推測するTheory of Mind(ToM)の不足にあると主張しています。
- StoryTRを新たに提案し、短編動画(shorts/reels)のナラティブに対するモーメント検索ベンチマークとして、ToM的推論を明示的に要求する8.1kサンプルを構成しました。
- 著者らは、意図のデコード、物語推論、境界ローカライズの3階層からなるToM推論チェーンを用いて、学習用データを生成するAgentic Data Pipelineを提案しています。
- 実験では推論ギャップの大きさが示され、Gemini-3.0-ProはStoryTRでAvg IoUが0.53にとどまる一方、ToM誘導データで学習した7BのShorts-Momentはベースライン比でIoUを15.1%改善し、「推論能力」が「パラメータ規模」より重要になり得ることを示唆しています。



