推論におけるエンパワーメントの柔軟な活用:拡張ベスト・オブ・Nサンプリング

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習(RL)における推論行動へ「エンパワーメント」を組み込むことで、探索と活用のトレードオフ(EED)をより適切に扱う手法を提案する。
  • 既存手法では、探索を促すためのエンパワーメントをタスク固有の報酬関数へボーナス項として加えることが多いが、その場合はエンパワーメントを考慮した方策が学習されるまで調整が遅れる点が課題だと述べている。
  • そこで著者らは、近年の基盤モデルの推論微調整で用いられるベスト・オブ・N(BoN)サンプリングを活用し、明示的に別の方策を学習することなく、修正された方策を暗黙的に獲得できると考える。
  • さらに、計算コストを抑えつつ、方策修正の強さを一般化可能な形で調整するために、BoNサンプリングをTsallis統計で拡張する新手法を提案する。
  • おもちゃの問題および複雑なロコモーション課題での実験により、提案手法がEEDのバランスを取りながらRL性能を向上できることを示している。