人間のように映画を見る:エゴセントリックな感情理解による身体性のあるコンパニオン

arXiv cs.CV / 2026/4/20

📰 ニュースModels & Research

要点

  • 身体性のあるロボットエージェントでは、感情推定がネイティブな映画映像ではなくエゴセントリックなスクリーン視点の映像に基づいて行われ、その結果として視点歪みやスケール変化、照明変動などのドメインギャップが生じる点を扱います。
  • EgoScreen-Emotion(ESE)という新しいベンチマークを提案し、制御されたエゴセントリックなスクリーン視点で撮影した映画トレーラー224本から、28,667枚の時系列整合されたキーフレームを収集し、曖昧さに配慮した信頼度付きマルチラベルの注釈を複数評価者で付与しています。
  • 視覚の時間的根拠、ナラティブ要約、圧縮した過去情報、音声キューを統合するマルチモーダルのロングコンテキスト感情推論フレームワークも構築しています。
  • ドメイン外評価では、シネマ映像で学習したモデルの性能が現実的なエゴセントリック観測で大きく低下すること(Macro-F1が27.99から16.69に低下)が示され、ESEでの学習が頑健性を大きく改善することが確認されます。
  • クローズドソースの強力なマルチモーダルモデルに対して競争力のある性能が報告され、身体性のあるコンパニオン用途ではドメイン特化データとロングコンテキストのマルチモーダル推論が重要であることを強調しています。

Abstract

身体化されたロボットエージェントは、多くの場合、ネイティブな映画映像ではなく、自己視点のスクリーン視聴インターフェースを通して映画を認識します。その結果、視点の歪み、スケールの変動、照明の変化、環境からの干渉といったドメインシフトが生じます。しかし、映画の感情理解に関する既存研究はほぼ独占的に映画映像に対して行われており、現実世界での視聴状況におけるドメインをまたいだ一般化が制限されています。そこで、このギャップを埋めるために、自己視点のスクリーン視聴における映画の感情理解のための最初のベンチマークデータセットであるEgoScreen-Emotion(ESE)を提案します。ESEには、制御された自己視点スクリーン視聴条件のもとで撮影された224本の映画トレーラーが含まれており、複数の評定者によって感情の曖昧さに対処するための信頼度を考慮したマルチラベル方式により、時系列的に整列された28,667枚のキーフレームが注釈付けされています。さらに、時間的な視覚的証拠、ナラティブ(物語)要約、圧縮された過去の文脈、そして音声の手がかりをモデル化する、マルチモーダルな長文脈感情推論フレームワークを構築します。クロスドメインの実験では深刻なドメインギャップが明らかになります。すなわち、映画映像で訓練したモデルは、現実的な自己視点スクリーン視聴の観測で評価すると、27.99から16.69までMacro-F1が低下します。ESEで訓練することで、現実的な視聴条件下での頑健性が大幅に向上します。本手法は、強力なクローズドソースのマルチモーダルモデルと競合する性能を達成しており、ドメイン固有のデータと長文脈のマルチモーダル推論の重要性を示しています。