SemanticScanpath：LLMsを用いた注視と発話の統合による状況文脈に基づくヒトとロボットのインタラクション

arXiv cs.RO / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、「SemanticScanpath」という手法を提案する。この手法は、ユーザの発話と指示対象を示す注視行動を融合し、文脈の中で曖昧または仕様が十分に定義されていない要求を社会的ロボットが解決できるようにする。

要旨: 大規模言語モデル（LLM）は、ソーシャルロボットの会話能力を大幅に向上させました。それにもかかわらず、人にとって直感的で流暢なヒューマンロボット対話を実現するには、ロボットが、曖昧または仕様が不十分な発話を、現在の物理的状況およびユーザが非言語的に表明する意図、例えば指示的な視線（referential gaze）を通じて結び付けることで、会話を根拠づけ（ground）できることが必要です。ここで我々は、音声と視線を統合する表現を提案し、LLMがより高い状況認識を達成し、曖昧な要求を正しく解決できるようにします。我々のアプローチは、ユーザが生成したスキャンパスに基づくテキストベースの意味的な翻訳と、言語による要求（verbal requests）に依存しています。これにより、LLMが視線行動について推論する能力を示し、不意の視線や無関係な対象を堅牢に無視できることを示します。我々は複数のタスクと2つのシナリオにわたってシステムを検証し、統制条件と比較して、その優れた汎用性と正確さを示します。さらに、ロボットプラットフォーム上での実装を実演し、要求の解釈から実行までのループを閉じます。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

SemanticScanpath：LLMsを用いた注視と発話の統合による状況文脈に基づくヒトとロボットのインタラクション

要点

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer