ロボットの内なる批評家：VLMベースの再計画による社会的行動の自己洗練

arXiv cs.RO / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はCRISP（Critique-and-Replan for Interactive Social Presence：対話的社会的存在感の批評と再計画）を紹介します。これは、ビジョン・ランゲージ・モデル（VLM）を社会的批評家として用いることで、ロボットが自らの行動を批評し再計画できる自律フレームワークです。
CRISPのワークフローには、ロボットの記述ファイル（例：MJCF）から可動ジョイントと制約を抽出すること、文脈から段階的な行動計画を生成すること、視覚情報を通じて低レベルのジョイント制御コードを生成すること、社会的適切性をVLMベースで評価すること、報酬ベースの探索による反復的な改良が含まれます。
本手法は特定のロボットAPIに依存しておらず、ロボットの構造ファイルだけを用いて、プラットフォームを跨いで微妙に異なる人間らしい動作を生成できます。
5種類のロボットタイプと20のシナリオを対象としたユーザ調査で、CRISPは従来の手法よりも好感度と状況適切性の評価が有意に高かった。
詳細な結果動画と補足情報は、論文にリンクされたプロジェクトページで閲覧できます。

要旨: 従来のロボットの社会的行動生成は柔軟性と自律性が制限されており、事前に定義されたモーションや人間のフィードバックに依存してきた。CRISP（Critique-and-Replan for Interactive Social Presence）を提案する自律的フレームワークであり、ロボットがVision-Language Model（VLM）を人間のような社会的批評家として活用して自らの行動を批評し再計画する。CRISPは、(1) ロボットの記述ファイル（例：MJCF）を分析して可動ジョイントと制約を抽出すること、(2) 状況文脈に基づく段階的な行動計画の生成、(3) 視覚情報（可動域の視覚化）を参照して低レベルの関節制御コードを生成すること、(4) 誤った手順を特定することを含む、社会的適切さと自然さを評価するVLMベースの評価、(5) 報酬ベースの探索による行動の反復的改良、を統合する。このアプローチは特定のロボットAPIに縛られることはなく、ロボットの構造ファイルだけを用いて、さまざまなプラットフォーム上で微妙に異なる人間のような動作を生成できる。モバイルマニピュレータを含む5種類のロボットタイプと20のシナリオを対象としたユーザー研究において、提案手法は従来の手法と比較して、好みの評価と状況適合性の評価が有意に高い結果を示した。本研究は、人間の介入を最小限に抑えつつ、ロボットの自律的な対話能力を拡張し、クロスプラットフォーム適用性を広げる一般的なフレームワークを提示する。この研究に関する詳細な結果動画および補足情報は、以下のURLで入手できる： https://limjiyu99.github.io/inner-critic/

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ロボットの内なる批評家：VLMベースの再計画による社会的行動の自己洗練

要点

関連記事

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer