要約: マルチモーダルAIの進歩にもかかわらず、現在の視覚ベースのアシスタントは協調タスクにおいて依然として非効率的である。私たちは二つの重要なギャップを特定する:通信ギャップは、チャネルの不一致のためにユーザーが豊かな並列の意図を口頭コマンドへ翻訳しなければならないこと、そして理解のギャップはAIが微妙な身体的手掛かりを解釈するのに苦労することである。これらに対処するため、Eye2Eyeを提案する。これは第一人称視点を人間とAIの認知的整合性のチャネルとして活用するフレームワークである。三つの構成要素を統合する:(1)滑らかな焦点合わせのための共同注視の調整、(2)進化する共通認識を維持する修正可能な記憶、(3)ユーザーがAIの理解を明確化・洗練させるための省察的フィードバック。このフレームワークをARプロトタイプに実装し、ユーザ研究と事後パイプライン評価を通じて評価した。結果はEye2Eyeがタスク完了時間とインタラクション負荷を有意に低減しつつ、信頼を高めることを示し、構成要素が協調して協力を改善することを示している。
相互の視点を共有して認知を整合させる: 人間とAIの協働における共有された一人称視点の活用
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Eye2Eyeは、第一人称視点を人間とAIの認知を整合させる手段として用い、マルチモーダル協働におけるコミュニケーションと理解のギャップに対処します。
- アプローチを「共同注意の協調」「更新可能な記憶」「省察的フィードバック」に分解し、進化する共通地盤を維持しつつ、AIの理解を明確にします。
- 著者らはARプロトタイプを実装し、ユーザ研究と事後パイプライン評価を通じて評価を行い、タスク完了時間の短縮と相互作用負荷の低下を見出しました。
- 結果はAIへの信頼の増大を示し、共有視点による相互作用が協働の効率とユーザーの信頼を高めることを示しています。
- 本研究は、第一人称視点を活用して自然な人間-AI協働を促進する将来のAIインタフェース設計の道筋を提示します。


