要旨: 大規模言語モデル(LLM)は、ソーシャルロボットの会話能力を大幅に向上させました。それにもかかわらず、人にとって直感的で流暢なヒューマンロボット対話を実現するには、ロボットが、曖昧または仕様が不十分な発話を、現在の物理的状況およびユーザが非言語的に表明する意図、例えば指示的な視線(referential gaze)を通じて結び付けることで、会話を根拠づけ(ground)できることが必要です。ここで我々は、音声と視線を統合する表現を提案し、LLMがより高い状況認識を達成し、曖昧な要求を正しく解決できるようにします。我々のアプローチは、ユーザが生成したスキャンパスに基づくテキストベースの意味的な翻訳と、言語による要求(verbal requests)に依存しています。これにより、LLMが視線行動について推論する能力を示し、不意の視線や無関係な対象を堅牢に無視できることを示します。我々は複数のタスクと2つのシナリオにわたってシステムを検証し、統制条件と比較して、その優れた汎用性と正確さを示します。さらに、ロボットプラットフォーム上での実装を実演し、要求の解釈から実行までのループを閉じます。
SemanticScanpath:LLMsを用いた注視と発話の統合による状況文脈に基づくヒトとロボットのインタラクション
arXiv cs.RO / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、「SemanticScanpath」という手法を提案する。この手法は、ユーザの発話と指示対象を示す注視行動を融合し、文脈の中で曖昧または仕様が十分に定義されていない要求を社会的ロボットが解決できるようにする。


