Fuzzy Logic理論に基づく適応的報酬シェーピングによる頑健な強化学習(FARS)

arXiv cs.RO / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 強化学習は、高次元の状態空間や長いホライゾンを持つ実問題で報酬が疎だったり固定的だったりすると、探索が遅くなり局所最適に陥りやすいという課題があります。
  • 本論文は、FARSとして、人間の直感を解釈可能なファジィルールに落とし込み、報酬設計に統合するファジー論理ベースの適応的報酬シェーピング手法を提案しています。
  • FARSはエージェントの状態に応じて報酬成分の寄与を動的に調整し、学習の安定性を高めるとともにハイパーパラメータへの感度を下げます。
  • 自律ドローンレースのベンチマークでの評価では、非ファジーな報酬設計と比べて収束が速く、訓練シード間の性能ばらつきが小さいことが示されました。
  • 全体として本手法は、難易度が上がる状況で「速い動き」と「精密な制御」の切り替えを滑らかにするなど、ナビゲーションの頑健性を狙っています。