複合ロボットポリシーにおけるスキル更新のための原子プローブに基づくガバナンス

arXiv cs.AI / 2026/4/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 従来の型付きスキル合成手法では、テスト時のスキルライブラリが固定である前提になっており、更新されたスキルに置き換えたときに合成結果がどう変わるかを評価しません。
  • 本論文は、スキルの更新に対する合成の感度を調べるために、クロスバージョンの「ペアサンプリング」スワップ手順を提案し、デュアルアームのペグインホール課題で強い「支配的スキル」効果を発見します。
  • 支配的スキルを合成に含めるかどうかで成功率が最大+50ポイント変化し得ること、さらにオフポリシーの行動距離指標では支配的スキルを特定できないことを示しています。
  • スキル更新のガバナンスを可能にするため、低コストのスキルごとの品質プロービングと、高コストな合成の再検証を選択的に組み合わせる原子品質プローブとHybrid Selectorを提案します。
  • 144件のスキル更新判断において、(混合オラクルという条件付きで)原子のみの評価はフル再検証にかなり近い精度を示し、進化するスキルライブラリに対応する実運用向けの基盤プリミティブとして有効性を示しています。

Abstract

配備済みのロボットシステムにおけるスキルライブラリは、微調整、最新のデモンストレーション、またはドメイン適応によって継続的に更新される。しかし、既存の型付きコンポジション手法(BLADE、SymSkill、Generative Skill Chaining)は、ライブラリをテスト時に凍結されたものとして扱い、スキルを置き換えたときにコンポジションの結果がどのように変化するかを分析していない。我々は、ロボスイートの操作タスクにおいて、ペアサンプリングのクロスバージョン・スワップ・プロトコルを導入し、コンポジショナルなスキル学習のこの次元を特徴づける。デュアルアームのペグ・イン・ホール課題では、支配的スキルの効果を発見する。すなわち、あるECMは原子(atomic)成功率86.7%を達成する一方で、他のすべてのECMは26.7%以下である。そして、この支配的ECMがコンポジションに入るかどうかによって、成功率は最大+50pp変化する。すべての原子ポリシーが100%まで飽和する、より単純なピック課題では境界を特徴づけるが、その効果は未定義(undefined)である。3つの課題にわたってさらに、オフポリシーの行動距離指標は支配的ECMを特定できず、本来の安価な予測器では不十分であることを示す。我々は、原子品質プローブ(atomic-quality probe)と、スキルごとのプローブを組み合わせることで(1回の意思決定あたりのコストがゼロ)、選択的なコンポジション再検証を行うHybrid Selectorを提案し、144件のスキル更新判断におけるパレート境界を特定する。T6では、原子のみのプローブは全再検証に対して23pp低く(64.6% vs 87.5%のオラクル一致)、意思決定あたりコストはゼロである。Hybrid Selectorはm=10で、そのギャップの大半を約12pp(全コストの46%で)まで縮める。144イベントにおけるタスク横断の平均では、原子のみは混合オラクルという注意書きのもとで全再検証から3pp以内である。原子品質プローブは、我々の知る限り、コンポジショナルなロボットポリシーにおけるスキル更新のガバナンスのための、原理に基づきかつデプロイ可能な最初の基礎的(principled)なプロトタイプである。