社会ロボットのための人間に着想を得た、文脈選択的マルチモーダル・メモリ

arXiv cs.AI / 2026/4/15

💬 オピニオン

要点

  • 本論文は、非選択的なテキストのみのメモリを用いるのではなく、テキストと視覚の両方のエピソード記憶(エピソード的痕跡)を保存し、必要に応じて取得する人間に着想を得た文脈選択的なマルチモーダル・メモリアーキテクチャを社会ロボット向けに提案する。

要旨: 記憶は社会的相互作用の基盤であり、人は意味のある過去の経験を思い出し、文脈に応じてその行動を適応させることができます。しかし、現在の多くのソーシャルロボットや身体性のあるエージェントは、選択性のないテキストベースの記憶に依存しており、個人に最適化された文脈を意識した相互作用を支える能力が制限されています。認知神経科学から着想を得て、本研究では、感情的な顕著性が高い、または場面の新規性が特徴的であるといった瞬間を優先しつつ、テキストと視覚のエピソード的な痕跡の両方を記録・検索する、文脈選択的なマルチモーダル記憶アーキテクチャをソーシャルロボット向けに提案します。これらの記憶を個々の利用者と関連付けることで、本システムは社会的にパーソナライズされた想起を可能にし、より自然で根拠のある対話を実現します。選択的な記憶保持メカニズムの評価として、ソーシャルシナリオのキュレーション済みデータセットを用い、Spearman相関 0.506 を達成し、人間の一貫性(\rho=0.415)を上回り、既存の画像記憶容易性モデルよりも優れた結果となりました。マルチモーダル検索の実験では、融合(fusion)アプローチにより、単一モダリティのテキストまたは画像検索に比べて Recall@1 を最大 13\% 向上させます。実行時間の評価により、本システムがリアルタイム性能を維持できることも確認されています。定性的分析でも、提案フレームワークがベースラインモデルよりも、より豊かで社会的に関連性の高い応答を生成することが示されています。本研究は、人間に着想を得た選択性とマルチモーダル検索を橋渡しすることで、ソーシャルロボットのための記憶設計を前進させ、長期的でパーソナライズされた人間—ロボット間の相互作用を強化します。