複合ロボットポリシーにおけるスキル更新のための原子プローブに基づくガバナンス
arXiv cs.AI / 2026/4/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 従来の型付きスキル合成手法では、テスト時のスキルライブラリが固定である前提になっており、更新されたスキルに置き換えたときに合成結果がどう変わるかを評価しません。
- 本論文は、スキルの更新に対する合成の感度を調べるために、クロスバージョンの「ペアサンプリング」スワップ手順を提案し、デュアルアームのペグインホール課題で強い「支配的スキル」効果を発見します。
- 支配的スキルを合成に含めるかどうかで成功率が最大+50ポイント変化し得ること、さらにオフポリシーの行動距離指標では支配的スキルを特定できないことを示しています。
- スキル更新のガバナンスを可能にするため、低コストのスキルごとの品質プロービングと、高コストな合成の再検証を選択的に組み合わせる原子品質プローブとHybrid Selectorを提案します。
- 144件のスキル更新判断において、(混合オラクルという条件付きで)原子のみの評価はフル再検証にかなり近い精度を示し、進化するスキルライブラリに対応する実運用向けの基盤プリミティブとして有効性を示しています。



