行動模倣(Behavior Cloning)+HG-DAgger [P] を用いて『Resident Evil Requiem』をプレイするAIを訓練する

Reddit r/MachineLearning / 2026/4/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この記事では、完全な強化学習を最初から行うのではなく、ハイブリッドな模倣学習アプローチによって *Resident Evil Requiem* の一部をプレイするようAIエージェントを訓練するプロジェクトを説明しています。
  • エージェントはまず、人間のプレイデモンストレーションから行動模倣(Behavior Cloning)で初期ポリシーを学習し、その後 HG-DAgger によって反復的に改善することで、分布外の状態に入った際に生じるコンパウンド(累積)エラーを低減します。
  • 訓練パイプラインではゲームプレイのキャプチャを使用し、コントローラ入力を離散化して行動空間を構成し、前処理を行ったうえで動画フレームから観測を直接抽出します。
  • 強調されている主な課題は、エージェントがデモから逸脱したときに訓練初期が不安定になること(行動模倣の典型的な失敗モード)と、画面上の出来事に対して行動のタイミングを同期させることの難しさです。
  • 訓練後、エージェントは目標となる脱出シーケンスをより一貫して移動でき、敵にもリアルタイムで反応し、小さな逸脱からある程度回復できます。ただし、汎化は限定的で、特化したままです。
Training an AI to play Resident Evil Requiem using Behavior Cloning + HG-DAgge [P]

プロジェクトのコード: https://github.com/paulo101977/notebooks-rl/tree/main/re_requiem

私はResident Evil Requiemの一部をプレイするエージェントの訓練に取り組んでいます。焦点は、敵と時間的なプレッシャーがある、スピード感のあるセミリニアな脱出シーケンスです。

最初から完全な強化学習を行うのではなく、ハイブリッドな手法を使いました:

  • Behavior Cloning(BC):人間のデモンストレーションから初期の方策を学習する
  • HG-DAgger:性能を反復的に改善し、累積する誤りを減らす

環境はゲームプレイのキャプチャに基づいており、コントローラ入力を離散化されたアクション空間にマッピングします。観測はフレームから直接抽出します(いくつかの前処理を含む)。そしてエージェントは、まず振る舞いを模倣し、その後時間とともに振る舞いを洗練していくことを学びます。

主な課題の一つは初期の不安定さでした。特に、エージェントがデモンストレーションされた軌跡から少しでも逸れると、(BCでよくある)典型的な問題が起きました。HG-DAggerは、分布外の状態を修正することで大いに役立ちました。

もう一つ難しい点は、画面上で実際に起きていることに対してアクションを同期させることでした。この種のゲームでは、わずかなタイミングのズレでも学習が完全に破綻することがあるためです。

訓練後、エージェントは次のことができるようになります:

  • シーケンスを一貫してナビゲートする
  • 敵に対してリアルタイムに反応する
  • 小さな逸脱から(ある程度)立て直す

私は現在、頑健性と汎化性の向上を試験的に行っています(現状では、このシーケンス部分にかなり特化しています)。

興味がある方には、さらに詳しい情報(訓練のセットアップ、前処理、アクション空間など)も共有できます。

submitted by /u/AgeOfEmpires4AOE4
[link] [comments]