AI Navigate

DoomVLMはオープンソース化 - VLMモデルによるDoomプレイ

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • DoomVLMはMITライセンスの下でオープンソースとなり、ViZDoomを介してDoomをプレイする視覚言語モデルを、強化学習やファインチューニングなしで実現—純粋なビジョン推論。
  • リリースには、同一マップ上で最大4エージェントをサポートする2つのデスマッチモード(BenchmarkとArena)が追加され、プロンプト、ツール、サンプリング、履歴の設定可能なUIが提供されます。
  • LM Studio、Ollama、vLLM、OpenAI、Claudeなど、すべてのOpenAI互換APIをサポートし、Qwen-3.5-0.8b対GPT-4oのようなモデル間比較を可能にします。
  • ゲームプレイはオーバーレイ付きのGIF/MP4として記録され、workspace/にログされ、Jupyter上でリアルタイムのスコアボードが表示され、結果はZIPとしてダウンロード可能です。パフォーマンスの注記では、0.8BでMacBook M1 Pro 16GB時はステップあたり約10秒、RunPod L40Sでは約0.5秒、アリーナにはGPUを推奨と記載されています。
  • このプロジェクトは1つのJupyterノートブックで構成され、MITライセンスの下で提供され、すぐに始められるクイックスタート手順が用意されています。
DoomVLM is now Open Source - VLM models playing Doom

数日前、ここに Qwen 3.5 0.8B が Doom をプレイする動画を投稿しました(https://www.reddit.com/r/LocalLLaMA/comments/1rpq51l/)— 予想以上に話題になり、多くの人がオープンソース化を求めました。こちらです: https://github.com/Felliks/DoomVLM

それ以来、私はかなり大幅に改良しました。大きな追加はデスマッチです — 同じマップ上で最大4つのモデルを対戦させ、誰が勝つかを見ることができます。

仕組みの簡単な説明: ノートブックは ViZDoom からスクリーンショットを取り、上部に番号付きの列グリッドを描画し、それを任意の OpenAI互換 API を介して VLM に送ります。モデルには2つのツール — shoot(column) と move(direction) — があり、tool_choice は「required」です。RLなし、ファインチューニングなし、純粋なビジョン推論です。

新機能:

2つのデスマッチモード。Benchmark — 同一条件下でボットと対戦する順番を交代させ、フェアな比較を行います。Arena — 同じゲーム内で全員が同時にプレイし、推論が速い人がより多くのターンを得ます。

最大4台のエージェントを、UI上で完全に設定可能 — システムプロンプト、ツールの説明、サンプリングパラメータ、メッセージ履歴長、グリッド列など。0.8B対4B対9Bといった組み合わせを試して違いを確認できます。あるいは気が向いたら Qwen 対 GPT-4o も。

OpenAI互換API のすべてに対応 — LM Studio、Ollama、vLLM、OpenRouter、OpenAI、Claude。設定のURLとモデルを入れ替えるだけです。

オーバーレイ付きの GIF/MP4 形式でエピソードを記録 — HP、弾薬、モデルが決定したこと、待ち時間が見られます。Jupyter 上にライブのスコアボード。結果はすべて workspace/ フォルダに保存 — ログ、動画、スクリーンショット。最後にはすべてを1つの ZIP としてダウンロードできます。

性能: 私のMacBook M1 Pro 16GB では 0.8B モデルは1ステップあたり約10秒。RunPod L40S では約0.5秒。アリーナの適切なプレイにはGPUが必要です。

クイックスタート: LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All

このプロジェクト全体は1つのJupyterノートブックで、MITライセンスです。

プロンプトと現在の状態について: Qwen 3.5 がすべてのシナリオで一貫して勝てる普遍的なプロンプトはまだ見つかっていません。一般的な観察としては、プロンプトはより簡潔で短いほど良い結果が出ます。過度に詳細な指示を与えると、モデルは詰まってしまいます。

GPT-4o や Claude のようなフラグシップはまだ試していません — インターフェースは対応していますが、GPUなしでローカルマシンから実行可能で、APIキーを接続するだけです。試してくれる人がいれば、その比較を見てみたいです。

基本的にはツール自体の仕上げをほぼ終えたところで、どのモデル・プロンプト・設定の組み合わせがどこで最適に機能するかを探り始めたばかりです。ですから、誰かが試してくれたら、興味深いプロンプト、異なるモデルでの驚くべき結果、役立った設定などを共有してください。Doom で実際に生き残るVLMについての共同知識を蓄えたいです。プレイ動画を投稿してください — 各ランの後は workspace/ に保存されます(録画を有効にしていれば GIF/MP4)。

投稿者 /u/MrFelliks
[リンク] [コメント]