ロボットの内なる批評家:VLMベースの再計画による社会的行動の自己洗練

arXiv cs.RO / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はCRISP(Critique-and-Replan for Interactive Social Presence:対話的社会的存在感の批評と再計画)を紹介します。これは、ビジョン・ランゲージ・モデル(VLM)を社会的批評家として用いることで、ロボットが自らの行動を批評し再計画できる自律フレームワークです。
  • CRISPのワークフローには、ロボットの記述ファイル(例:MJCF)から可動ジョイントと制約を抽出すること、文脈から段階的な行動計画を生成すること、視覚情報を通じて低レベルのジョイント制御コードを生成すること、社会的適切性をVLMベースで評価すること、報酬ベースの探索による反復的な改良が含まれます。
  • 本手法は特定のロボットAPIに依存しておらず、ロボットの構造ファイルだけを用いて、プラットフォームを跨いで微妙に異なる人間らしい動作を生成できます。
  • 5種類のロボットタイプと20のシナリオを対象としたユーザ調査で、CRISPは従来の手法よりも好感度と状況適切性の評価が有意に高かった。
  • 詳細な結果動画と補足情報は、論文にリンクされたプロジェクトページで閲覧できます。

要旨: 従来のロボットの社会的行動生成は柔軟性と自律性が制限されており、事前に定義されたモーションや人間のフィードバックに依存してきた。CRISP(Critique-and-Replan for Interactive Social Presence)を提案する自律的フレームワークであり、ロボットがVision-Language Model(VLM)を人間のような社会的批評家として活用して自らの行動を批評し再計画する。CRISPは、(1) ロボットの記述ファイル(例:MJCF)を分析して可動ジョイントと制約を抽出すること、(2) 状況文脈に基づく段階的な行動計画の生成、(3) 視覚情報(可動域の視覚化)を参照して低レベルの関節制御コードを生成すること、(4) 誤った手順を特定することを含む、社会的適切さと自然さを評価するVLMベースの評価、(5) 報酬ベースの探索による行動の反復的改良、を統合する。 このアプローチは特定のロボットAPIに縛られることはなく、ロボットの構造ファイルだけを用いて、さまざまなプラットフォーム上で微妙に異なる人間のような動作を生成できる。モバイルマニピュレータを含む5種類のロボットタイプと20のシナリオを対象としたユーザー研究において、提案手法は従来の手法と比較して、好みの評価と状況適合性の評価が有意に高い結果を示した。本研究は、人間の介入を最小限に抑えつつ、ロボットの自律的な対話能力を拡張し、クロスプラットフォーム適用性を広げる一般的なフレームワークを提示する。この研究に関する詳細な結果動画および補足情報は、以下のURLで入手できる: https://limjiyu99.github.io/inner-critic/