Teaching Robots to Interpret Social Interactions through Lexically-guided Dynamic Graph Learning

arXiv cs.RO / 4/14/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 本研究は、ユーザーの内部状態(潜在)と観察可能な行動の間にある動的な関係をモデル化することで、ロボットの社会的インテリジェンスを高める方法を提案している。
  • SocialLDGというマルチタスク学習フレームワークでは、認知科学の考えに基づき複数タスクとして状態間のダイナミクスを明示的に表現し、さらに言語モデルによる語彙的プリオリ(lexical priors)を各タスクに導入する。
  • タスク間の親和性(affinity)が時間とともに変化する点を、ダイナミック・グラフ学習で学習することで、相互作用の時間発展を捉える設計になっている。
  • 公開されている2つの人-ロボット社会的相互作用データセットで従来手法を上回る性能を示し、新タスク追加時にも壊滅的忘却を抑えつつスケールできると報告している。
  • 明示的なタスク親和性のモデリングにより、内部状態と行動が人の意思決定の中でどのように影響し合って展開するかといった分析的な洞察も得られるとしている。

Abstract

For a robot to be called socially intelligent, it must be able to infer users internal states from their current behaviour, predict the users future behaviour, and if required, respond appropriately. In this work, we investigate how robots can be endowed with such social intelligence by modelling the dynamic relationship between user's internal states (latent) and actions (observable state). Our premise is that these states arise from the same underlying socio-cognitive process and influence each other dynamically. Drawing inspiration from theories in Cognitive Science, we propose a novel multi-task learning framework, termed as \textbf{SocialLDG} that explicitly models the dynamic relationship among the states represent as six distinct tasks. Our framework uses a language model to introduce lexical priors for each task and employs dynamic graph learning to model task affinity evolving with time. SocialLDG has three advantages: First, it achieves state-of-the-art performance on two challenging human-robot social interaction datasets available publicly. Second, it supports strong task scalability by learning new tasks seamlessly without catastrophic forgetting. Finally, benefiting from explicit modelling task affinity, it offers insights on how different interactions unfolds in time and how the internal states and observable actions influence each other in human decision making.