ピノキオが強化学習エージェントだったら:規範的エンドツーエンド・パイプライン

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Pinoというハイブリッドモデルを提案する。強化学習エージェントは議論ベースの規範的アドバイザーによって監督され、規範遵守と文脈認識を達成する。
  • AJAR、Jiminy、NGRLアーキテクチャを基盤として、アドバイザーの意思決定の背後にある論拠と関係を自動的に抽出する新規アルゴリズムを導入する。
  • 本研究は強化学習における規範回避を調査し、提案されたパイプライン内での緩和戦略を提供する。
  • パイプラインの各構成要素は経験的に評価され、研究の限界と今後の研究の方向性について議論される。

要旨: 過去10年間で、人工知能(AI)は急速に発展してきた。この急速な進展とともに、社会の規則や規範を遵守できるシステムが求められ、それらが日常生活に安全かつ確実に統合されるようになる必要性が生じた。``Le avventure di Pinocchio - Storia di un burattino'' のピノキオの物語に触発され、本論文は規範に準拠し文脈を認識するエージェントを開発する問題に対処するパイプラインを提案する。AJAR、Jiminy、NGRL アーキテクチャを基盤とし、本研究は \pino、強化学習エージェントが議論ベースの規範的アドバイザーによって監督されるハイブリッドモデルを導入する。このパイプラインを運用可能にするため、本論文はアドバイザーの意思決定の根底にある主張と関係性を自動的に抽出する新規アルゴリズムも提示する。最後に、本論文は \textit{規範回避} 現象を調査し、強化学習エージェントの文脈における定義と緩和戦略を提供する。パイプラインの各構成要素は実証的に評価される。論文は関連研究、現在の制限、および将来の研究の方向性についての議論を含めて結論づけられる。