GIFT:固有ファインチューニングによるグローバル安定化

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、すでに高い性能を持つディープ強化学習ポリシーの「グローバル安定性」を改善する汎用トレーニング枠組みGIFT(Global stabilisation via Intrinsic Fine Tuning)が提案されている。
  • GIFTは、独自の報酬関数を用いてグローバル安定性を直接最適化し、ディープRLでよく見られるカオス的な状態ダイナミクスや初期条件への高い感度の低減を狙っている。
  • 実験では、GIFT適用により制御インタラクションの安定性が向上しつつ、タスク性能は元のポリシーと同程度に保たれることが示されている。
  • この研究は、実環境の制御では平均的な成功率だけでなく安定性と性能の保証が求められる、ディープRLの重要な課題に対処することを目的としている。