EmbodiedGovBench：身体化エージェント・システムにおけるガバナンス、リカバリ、アップグレード安全性のためのベンチマーク

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

EmbodiedGovBenchは、完了率や操作精度のような単純なタスク成功指標を超えて、身体化エージェント（ロボット／身体化AI）システムにおけるガバナンス、リカバリ、アップグレード安全性を評価するための新しいベンチマークとして導入される。
このベンチマークは、無許可の能力呼び出し、実行時ドリフトへの頑健性、リカバリ成功、ポリシーの移植性、バージョンアップグレード時の安全性、人のオーバーライド応答性、監査の完全性を含む7つのガバナンス指標を評価する。
シナリオ・テンプレート、摂動（パートベーション）オペレータ、ガバナンス・メトリクス、ベースラインの評価プロトコルを用いて、単一ロボットおよびフリート（複数台）設定の双方に対する評価フレームワークを定義する。
提案では、モジュール化されたインターフェースと契約（コントラクト）を意識したアップグレード・ワークフローにより、身体化能力ランタイム上でこのベンチマークを具体化する方法を示し、身体化ガバナンスを第一級の評価対象にすることを目指す。

要旨: 身体化されたAI（embodied AI）における最近の進展は、ロボットの方策、基盤モデル、モジュール型ランタイムの拡大するエコシステムを生み出しました。しかし、現在の評価は、達成率や操作精度のようなタスク成功指標によって依然として支配されています。これらの指標が埋められない重要なギャップがあります。すなわち、身体化されたシステムが統治可能かどうか（能力の境界を尊重するか、ポリシーを強制するか、安全に回復できるか、監査証跡を維持できるか、人間による監督に応答できるか）を測れていないのです。本稿では、身体化エージェントシステムの統治（governance）志向の評価のためのベンチマークである EmbodiedGovBench を提案します。ロボットがタスクを完了できるかどうかだけを問うのではなく、現実的な摂動のもとで、システムが制御可能であり続けるか、ポリシーの境界内に収まっているか、回復可能か、監査可能か、そして進化に対して安全（evolution-safe）かを評価します。このベンチマークは、7つの統治の次元をカバーします。すなわち、未承認の能力呼び出し、ランタイムのドリフト耐性、回復の成功、ポリシーの移植性、バージョンアップグレードの安全性、人間による上書きへの応答性、および監査の完全性です。ベンチマークは、単一ロボットとフリートの設定にまたがる構造を定義し、シナリオテンプレート、摂動オペレータ、統治指標、ベースラインの評価プロトコルを含みます。さらに、モジュール型のインターフェースと契約（contract）を意識したアップグレードのワークフローを備えた身体化能力ランタイム上で、ベンチマークをどのように具体化できるかを説明します。本解析は、身体化ガバナンスは一次の評価対象となるべきだという示唆を与えます。EmbodiedGovBench は、その転換に向けた最初の計測フレームワークを提供します。