AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

行動模倣（Behavior Cloning）＋HG-DAgger [P] を用いて『Resident Evil Requiem』をプレイするAIを訓練する

Reddit r/MachineLearning / 2026/4/12

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この記事では、完全な強化学習を最初から行うのではなく、ハイブリッドな模倣学習アプローチによって *Resident Evil Requiem* の一部をプレイするようAIエージェントを訓練するプロジェクトを説明しています。
エージェントはまず、人間のプレイデモンストレーションから行動模倣（Behavior Cloning）で初期ポリシーを学習し、その後 HG-DAgger によって反復的に改善することで、分布外の状態に入った際に生じるコンパウンド（累積）エラーを低減します。
訓練パイプラインではゲームプレイのキャプチャを使用し、コントローラ入力を離散化して行動空間を構成し、前処理を行ったうえで動画フレームから観測を直接抽出します。
強調されている主な課題は、エージェントがデモから逸脱したときに訓練初期が不安定になること（行動模倣の典型的な失敗モード）と、画面上の出来事に対して行動のタイミングを同期させることの難しさです。
訓練後、エージェントは目標となる脱出シーケンスをより一貫して移動でき、敵にもリアルタイムで反応し、小さな逸脱からある程度回復できます。ただし、汎化は限定的で、特化したままです。

Training an AI to play Resident Evil Requiem using Behavior Cloning + HG-DAgge [P]

プロジェクトのコード: https://github.com/paulo101977/notebooks-rl/tree/main/re_requiem

私はResident Evil Requiemの一部をプレイするエージェントの訓練に取り組んでいます。焦点は、敵と時間的なプレッシャーがある、スピード感のあるセミリニアな脱出シーケンスです。

最初から完全な強化学習を行うのではなく、ハイブリッドな手法を使いました:

Behavior Cloning（BC）：人間のデモンストレーションから初期の方策を学習する
HG-DAgger：性能を反復的に改善し、累積する誤りを減らす

環境はゲームプレイのキャプチャに基づいており、コントローラ入力を離散化されたアクション空間にマッピングします。観測はフレームから直接抽出します（いくつかの前処理を含む）。そしてエージェントは、まず振る舞いを模倣し、その後時間とともに振る舞いを洗練していくことを学びます。

主な課題の一つは初期の不安定さでした。特に、エージェントがデモンストレーションされた軌跡から少しでも逸れると、（BCでよくある）典型的な問題が起きました。HG-DAggerは、分布外の状態を修正することで大いに役立ちました。

もう一つ難しい点は、画面上で実際に起きていることに対してアクションを同期させることでした。この種のゲームでは、わずかなタイミングのズレでも学習が完全に破綻することがあるためです。

訓練後、エージェントは次のことができるようになります:

シーケンスを一貫してナビゲートする
敵に対してリアルタイムに反応する
小さな逸脱から（ある程度）立て直す

私は現在、頑健性と汎化性の向上を試験的に行っています（現状では、このシーケンス部分にかなり特化しています）。

興味がある方には、さらに詳しい情報（訓練のセットアップ、前処理、アクション空間など）も共有できます。

submitted by /u/AgeOfEmpires4AOE4
[link] [comments]

関連記事

Black Hat USA

Black Hat USA

AI Business

Black Hat Asia

Black Hat Asia

AI Business

開発者はすでにローカルでAIを動かしている：オンデバイス推論がCISOの新たな盲点になる理由

開発者はすでにローカルでAIを動かしている：オンデバイス推論がCISOの新たな盲点になる理由

VentureBeat

マイクロソフト、ローカルAI環境をインストーラで配布できる「Foundry Local」正式リリース。MacやLinuxにも対応

マイクロソフト、ローカルAI環境をインストーラで配布できる「Foundry Local」正式リリース。MacやLinuxにも対応

Publickey

オムロン子会社の新強化学習技術、オンラインで全エピソードの安全保証

オムロン子会社の新強化学習技術、オンラインで全エピソードの安全保証

日経XTECH

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告