広告

会話におけるユーザーとウィザード:WoZインターフェースの選択が人とロボットの相互作用をどう定義するか

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ウィザード・ロボット実験(Wizard-of-Oz: WoZ)において、ウィザードとロボットが知覚・生成できるものに異なる制約を設けた3種類のインターフェース設計(制限付きGUI、無制限のGUI、VRテレプレゼンス)を比較する。
  • ユーザー評価の結果、VRインターフェースは、ロボット機能の満足度がより高く、知覚されるソーシャルプレゼンスも高かったため、最も好まれた。
  • ウィザードの視点では、VRはロボット操作のための要求水準が最も高いインターフェースである一方で、ユーザーとのより強い社会的つながりの感覚を促すことが示された。
  • 本研究では、会話のタイミングやターンテイキングにインターフェース依存の違いがあることが分かり、VRが最も結びついた発話ダイナミクスを生み、制限付きGUIでは沈黙が大きくなるなど、最も結びつきの弱い発話の流れになることが明らかになった。
  • 著者らは、将来のロボットをより適切にモデル化し、自動化を支えるための自然な文脈に基づく発話および非言語データを収集する観点から、より多くのWoZ実験でテレプレゼンス・インターフェースを用いるべきだと主張している。

Abstract

本論文では、ウィザード・オブ・オズ(WoZ)インターフェースの選択が、ユーザー側およびウィザード側の双方の観点から、ロボットとのコミュニケーションにどのような影響を与えるかを調査した。対話的な設定において、会話入力および出力の制限度が異なる3種類のWoZインターフェースを用いた。すなわち、a) 固定視点の映像とASR(自動音声認識)書き起こしを表示し、ウィザードが事前に台本化された発話やジェスチャーを起動できる、制限付き知覚GUI;b) 参加者からのリアルタイム音声とロボットからの音声を追加した、非制限の知覚GUI;c) ウィザードへ没入型のステレオ映像と音声を配信し、さらにウィザードの自発的な発話、視線、表情をロボットへ転送するVRテレプレゼンス・インターフェース。結果として、VRインターフェースによって媒介された相互作用は、ロボットの機能および知覚された社会的プレゼンスの観点でユーザーに好まれた。ウィザードにとっては、VR条件が最も負荷が高いことが分かったが、それにもかかわらずユーザーとの社会的なつながりがより高く引き出された。VRインターフェースは、話者間ギャップおよびオーバーラップの点で最もつながりのある相互作用を生み出したのに対し、制限付きGUIは最もつながりの弱い流れを誘発し、最大の沈黙を生じさせた。これらの結果を踏まえ、テレプレゼンス・インターフェースを用いたより多くのWoZ研究を行うことを提案する。これらの研究は、未来のロボットをよりよく反映し、自然主義的で文脈づけられた言語的および非言語的行動データに基づく自動化に向けた有望な道筋を提供する。

広告