Odysseus：強化学習でゲームにおける100回超のターン意思決定を実現するVLMのスケーリング

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、100回以上のターン相互作用を要するSuper Mario Landにおいて、強化学習で視覚言語モデル（VLM）を長期のインタラクティブ意思決定に適応させる手法を検討します。
重要なRLアルゴリズム構成要素を分析し、軽量なターン単位のクリティックを用いたPPOの改良版を提案することで、クリティックを使わない手法よりも学習安定性とサンプル効率を高めます。
事前学習済みのVLMは強力な行動事前分布（action priors）を提供し、その結果として、スクラッチから深層強化学習を学習する場合に比べてサンプル効率が向上し、手作業のアクション設計（action engineering）の必要性も減ることが示されます。
著者らはVLMエージェント向けのオープン学習フレームワークOdysseusを導入し、ゲーム内で複数の段階にわたって大きな改善と、少なくとも最前線モデル比で平均進行度を3倍以上にする成果を報告しています。また、クロスゲーム一般化でも一貫した改善が得られ、汎用領域の能力も維持されます。

要旨: 視覚言語モデル（VLM）の能力が急速に拡大していることを背景に、ビデオゲームのようなインタラクティブな意思決定タスクへ拡張することが有望なフロンティアとして浮上している。しかし、既存の手法は、(1) 人間の軌跡に対する大規模な教師あり微調整（SFT）に依存するか、または (2) 強化学習（RL）を比較的短いホライズン（通常は20〜30ターン程度）の設定にのみ適用するかのいずれかである。本研究では、見た目に基づいた環境であるスーパーマリオランドにおける、長ホライズンの意思決定のためのVLMに対するRLベースの学習を検討する。この環境では、協調的な知覚・推論・行動による100ターン超のインタラクションが要求される。我々はまず、主要なアルゴリズム構成要素を体系的に調査し、軽量なターン単位のクリティックを備えた、適応版PPOを提案する。この手法は、GRPOやReinforce++ のようなクリティックなし手法と比べて、学習の安定性とサンプル効率を大幅に改善する。さらに、事前学習済みのVLMは強力な行動の事前分布（アクション・プリオリ）を提供し、古典的な深層強化学習をスクラッチから学習する場合と比べて、RL学習中のサンプル効率を大きく向上させ、行動エンジニアリングのような手作業による設計判断の必要性を減らすことを示す。これらの知見に基づき、VLMエージェントのためのオープンな学習フレームワークであるOdysseusを導入し、ゲームの複数のレベルにわたって大きな改善を達成し、最前線モデルに対して平均ゲーム進行が少なくとも3倍に達することを示す。加えて、学習済みモデルは、ゲーム内およびクロスゲームの一般化設定の両方において一貫した改善を示しつつ、汎用領域での能力も維持している。総合すると、我々の結果は、長ホライズンかつマルチモーダルな設定においてRLを安定かつ有効にするための重要な要素を特定するとともに、身体化されたエージェントとしてVLMを開発するための実践的な指針を提供する。