価値と行動をつなぐ:自律的な身体性エージェントのための階層型フレームワーク

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、多くの身体性エージェントが受動的な指示追従や反応的な欲求充足にとどまり、長期的で安定した価値に基づく自己主導行動や動機の対立の解決を欠いていると指摘している。
  • ValuePlannerと呼ばれる階層型アーキテクチャを提案し、高レベルの価値スケジューリングと低レベルの行動実行を分離することで、抽象的な価値のトレードオフをLLMが推論し、サブゴールをPDDLの古典的プランナで実行可能な計画へ変換する仕組みを示している。
  • さらに、閉ループのフィードバック機構によって計画と実行を継続的に洗練する。
  • 自律性の評価はタスク成功率だけでは不十分として、累積価値の獲得、嗜好(プレファレンス)の整合、行動の多様性を測る価値中心の評価スイートを提案している。
  • TongSimの家庭環境での実験では、ValuePlannerが競合する価値を調停し、指示追従型・欲求駆動型のベースラインにはない、長い時間軸で一貫した自己主導行動を生成できることを示している。

概要: 現在の身体化エージェントは、多くの場合、受動的な指示追従や反応的な必要充足に限られており、長期的な自己主導行動や、動機づけの葛藤を解消するために不可欠な安定した高次の価値(value)枠組みを欠いています。そこで本研究では、 extit{ValuePlanner}を導入します。これは、高レベルの価値スケジューリングと、低レベルの行動実行を切り離す階層型認知アーキテクチャです。 extit{ValuePlanner}は、抽象的な価値のトレードオフを考察することで、記号的なサブゴールを生成するLLMベースの認知モジュールを用い、その後、それらを古典的なPDDLプランナにより実行可能な行動計画へと変換します。このプロセスは、閉ループのフィードバック機構によって洗練されます。このような自律性を評価するには、タスク成功率を超える方法が必要です。そこで本研究では、累積的な価値獲得、嗜好(プレファレンス)の整合、行動の多様性を測定する価値中心の評価スイートを提案します。TongSimの家庭環境における実験では、 extit{ValuePlanner}が競合する価値を調停し、指示追従や欲求(ニーズ)駆動のベースラインには見られない、首尾一貫した長い時間軸を持つ自己主導的行動を生成することが示されます。本研究は、自律エージェントのための内在的価値と、基盤となる行動とを橋渡しするための体系的アプローチを提供します。