人間のように映画を見る:エゴセントリックな感情理解による身体性のあるコンパニオン
arXiv cs.CV / 2026/4/20
📰 ニュースModels & Research
要点
- 身体性のあるロボットエージェントでは、感情推定がネイティブな映画映像ではなくエゴセントリックなスクリーン視点の映像に基づいて行われ、その結果として視点歪みやスケール変化、照明変動などのドメインギャップが生じる点を扱います。
- EgoScreen-Emotion(ESE)という新しいベンチマークを提案し、制御されたエゴセントリックなスクリーン視点で撮影した映画トレーラー224本から、28,667枚の時系列整合されたキーフレームを収集し、曖昧さに配慮した信頼度付きマルチラベルの注釈を複数評価者で付与しています。
- 視覚の時間的根拠、ナラティブ要約、圧縮した過去情報、音声キューを統合するマルチモーダルのロングコンテキスト感情推論フレームワークも構築しています。
- ドメイン外評価では、シネマ映像で学習したモデルの性能が現実的なエゴセントリック観測で大きく低下すること(Macro-F1が27.99から16.69に低下)が示され、ESEでの学習が頑健性を大きく改善することが確認されます。
- クローズドソースの強力なマルチモーダルモデルに対して競争力のある性能が報告され、身体性のあるコンパニオン用途ではドメイン特化データとロングコンテキストのマルチモーダル推論が重要であることを強調しています。



