視覚言語行動の正則化による強化学習のジャンプスタート

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、疎なVLA(Vision-Language-Action)ガイダンスとオンポリシー強化学習を組み合わせる手法であるVision-Language-Action Jump-Starting(VLAJS)を提案し、疎または不完全な報酬による長い時間範囲の操作を扱う。
  • VLAJSは、方向に基づく行動一貫性正則化によってPPOを拡張し、厳密な模倣、デモンストレーション、あるいは継続的な教師への問い合わせを行わずに、初期探索をバイアスしつつクレジット割り当てを改善する。
  • このアプローチではVLAガイダンスを疎に適用し、学習の進行に伴ってこれをアニーリングすることで、強化学習エージェントがオンラインで適応でき、最終的にガイド役のポリシーを上回れるようにする。
  • 6つの模擬操作タスクでの実験により、VLAJSはPPOや蒸留スタイルのベースラインに比べてサンプル効率を向上し、必要な環境との相互作用を一部のケースで50%以上削減することが示される。
  • タスクの一部は実機のFranka Pandaロボットで検証され、雑然とした環境、物体のバリエーション、外乱下でも頑健なシミュレーションから実環境へのゼロショット転移と信頼できる性能が確認される。