広告

ブラックジャックの学習:カリキュラム学習の観点から

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、利用可能な行動に対して段階的な訓練経路を動的に生成する、強化学習のためのLLMガイド付きカリキュラム枠組みを提案する。
  • このアプローチをブラックジャックに適用し、Tabular Q-LearningエージェントおよびDeep Q-Network(DQN)エージェントの双方に対して、行動を段階的に導入する。
  • 8デックのシミュレーションを10回実行したところ、カリキュラム手法によりDQNエージェントの平均勝率が43.97%から47.41%へ向上し、バースト率は32.9%から28.0%へ低下した。
  • LLM生成のカリキュラムは訓練ワークフローも大幅に加速し、全体で74%以上の速度向上が得られ、ベースラインの評価フェーズよりも早く完全な訓練が完了した。
  • 結果は、LLMガイド付きカリキュラムがRLエージェントをより効果的で堅牢、かつサンプル/時間効率の高いものにできるという主張を支持する。

要旨: 強化学習(RL)エージェントは、複雑な環境において効率性と性能の面でしばしば苦戦します。本研究では、大規模言語モデル(LLM)を用いて、利用可能な行動に対するカリキュラムを動的に生成する新しい枠組みを提案します。これにより、エージェントは各行動を個別に取り込むことが可能になります。この枠組みをブラックジャックのゲームに適用します。そこでは、LLMがマルチステージの学習経路を作成し、複雑な行動を段階的に導入することで、表形式のQ学習と深層Qネットワーク(DQN)エージェントを訓練します。10回の独立した実行における、現実的な8デックのシミュレーションでの評価では、標準的な学習手法に比べて大幅な性能向上が示されました。カリキュラムに基づくアプローチにより、DQNエージェントの平均勝率は43.97%から47.41%へと向上し、平均バースト率は32.9%から28.0%へと低下し、全体のワークフローは74%以上加速しました。さらに、エージェントの完全な学習は、ベースラインの評価フェーズ単独よりも速く完了しました。これらの結果は、LLMによって導かれるカリキュラムが、より効果的で頑健かつ効率的なRLエージェントを構築し得ることを検証しています。

広告