StoryTR：心の理論（ToM）推論を用いた物語中心の動画時間的リトリーバル

arXiv cs.AI / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本論文は、既存の動画モーメント検索モデルが物語（ナラティブ）内容でうまく機能しないのは、「何が起きているか」は分かっても「なぜそれが重要か」を推論できないためであり、その原因は表層観測から暗黙の意図・心的状態・物語の因果関係を推測するTheory of Mind（ToM）の不足にあると主張しています。
StoryTRを新たに提案し、短編動画（shorts/reels）のナラティブに対するモーメント検索ベンチマークとして、ToM的推論を明示的に要求する8.1kサンプルを構成しました。
著者らは、意図のデコード、物語推論、境界ローカライズの3階層からなるToM推論チェーンを用いて、学習用データを生成するAgentic Data Pipelineを提案しています。
実験では推論ギャップの大きさが示され、Gemini-3.0-ProはStoryTRでAvg IoUが0.53にとどまる一方、ToM誘導データで学習した7BのShorts-Momentはベースライン比でIoUを15.1%改善し、「推論能力」が「パラメータ規模」より重要になり得ることを示唆しています。

要旨: 現在のビデオ・モーメント検索はアクション中心のタスクでは優れていますが、物語（ナラティブ）の内容では苦戦します。モデルは extit{何が起きているか} を見ることはできますが、それが extit{なぜ重要なのか} を推論できません。このセマンティックなギャップは、 extbf{心の理論（ToM: Theory of Mind）} の欠如に起因します。すなわち、表面的な観察から、暗黙の意図・心的状態・物語の因果関係を推測するための認知能力です。私たちは extbf{StoryTR} を提案します。これは、ToM推論を要求する最初のビデオ・モーメント検索ベンチマークであり、物語性のあるショート形式動画（shorts/reels）から 8.1k サンプルで構成されます。これらの動画は理想的な検証の場を提供します。情報密度が高いため、意味が微妙なマルチモーダルの手がかりに符号化されています。たとえば、視線にため息が組み合わさると、視線だけとはまったく異なる意味になります。しかし、マルチモーダル知覚だけでは不十分です。登場人物が「笑っている」のが実は「敵意を隠している」可能性があることを読み解くには、ToM が必要です。この推論能力をモデルに学習させるために、明示的な3階層のToMチェーン（意図デコーディング、物語推論、境界ローカリゼーション）で学習データを生成する extbf{Agentic Data Pipeline（エージェント型データパイプライン）} を提案します。実験により、推論ギャップの深刻さが明らかになります。Gemini-3.0-Pro は StoryTR で 0.53 の Avg IoU しか達成できません。一方で、ToM誘導データで学習した私たちの 7B extbf{Shorts-Moment} モデルは、ベースラインに対して相対的に +15.1 r% の IoU 改善を示し、 extit{物語推論能力はパラメータ規模より重要である} ことを実証しています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

2026年に実運用で効くAIボイスエージェント：実際に何がうまくいくのか

Dev.to

StoryTR：心の理論（ToM）推論を用いた物語中心の動画時間的リトリーバル

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

2026年に実運用で効くAIボイスエージェント：実際に何がうまくいくのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

2026年に実運用で効くAIボイスエージェント：実際に何がうまくいくのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力