| プロジェクトのコード: https://github.com/paulo101977/notebooks-rl/tree/main/re_requiem 私はResident Evil Requiemの一部をプレイするエージェントの訓練に取り組んでいます。焦点は、敵と時間的なプレッシャーがある、スピード感のあるセミリニアな脱出シーケンスです。 最初から完全な強化学習を行うのではなく、ハイブリッドな手法を使いました:
環境はゲームプレイのキャプチャに基づいており、コントローラ入力を離散化されたアクション空間にマッピングします。観測はフレームから直接抽出します(いくつかの前処理を含む)。そしてエージェントは、まず振る舞いを模倣し、その後時間とともに振る舞いを洗練していくことを学びます。 主な課題の一つは初期の不安定さでした。特に、エージェントがデモンストレーションされた軌跡から少しでも逸れると、(BCでよくある)典型的な問題が起きました。HG-DAggerは、分布外の状態を修正することで大いに役立ちました。 もう一つ難しい点は、画面上で実際に起きていることに対してアクションを同期させることでした。この種のゲームでは、わずかなタイミングのズレでも学習が完全に破綻することがあるためです。 訓練後、エージェントは次のことができるようになります:
私は現在、頑健性と汎化性の向上を試験的に行っています(現状では、このシーケンス部分にかなり特化しています)。 興味がある方には、さらに詳しい情報(訓練のセットアップ、前処理、アクション空間など)も共有できます。 [link] [comments] |
行動模倣(Behavior Cloning)+HG-DAgger [P] を用いて『Resident Evil Requiem』をプレイするAIを訓練する
Reddit r/MachineLearning / 2026/4/12
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この記事では、完全な強化学習を最初から行うのではなく、ハイブリッドな模倣学習アプローチによって *Resident Evil Requiem* の一部をプレイするようAIエージェントを訓練するプロジェクトを説明しています。
- エージェントはまず、人間のプレイデモンストレーションから行動模倣(Behavior Cloning)で初期ポリシーを学習し、その後 HG-DAgger によって反復的に改善することで、分布外の状態に入った際に生じるコンパウンド(累積)エラーを低減します。
- 訓練パイプラインではゲームプレイのキャプチャを使用し、コントローラ入力を離散化して行動空間を構成し、前処理を行ったうえで動画フレームから観測を直接抽出します。
- 強調されている主な課題は、エージェントがデモから逸脱したときに訓練初期が不安定になること(行動模倣の典型的な失敗モード)と、画面上の出来事に対して行動のタイミングを同期させることの難しさです。
- 訓練後、エージェントは目標となる脱出シーケンスをより一貫して移動でき、敵にもリアルタイムで反応し、小さな逸脱からある程度回復できます。ただし、汎化は限定的で、特化したままです。




