civStation - 戦略レベルの自然言語で『シヴィライゼーション VI』をプレイするためのVLMシステム

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

civStationは、戦略レベルの自然言語による指示（例：「経済に注力する」や「科学勝利を目指す」）を具体的なゲーム内アクションへ翻訳することで、『シヴィライゼーション VI』をプレイする、実験的な「コンピュータ利用」型VLMシステムである。
本システムは3層構造を採用しており、Strategy（意図／目標の計画と分解）、Action（VLMベースの画面解釈と、ゲームAPIを用いないマウス／キーボード実行）、HITL（リアルタイム制御のためのヒト介入による上書き）から成る。
単一のアクション列に依存するのではなく、1つの戦略を計画したうえで、各タスクごとに複数の可能なアクション列を生成する。通常、必要となるのは約2〜16回のモデル呼び出しである。
実行は、市街地管理やユニット制御などの境界が明確なゲームプレイタスクごとにサブエージェントを用いて実装されており、「アクション → 意図」から「委任とエージェントのオーケストレーション」へとインタラクションを移行させることを重視している。
挙げられている主要な課題は、VLMの知覚エラー、多段階のプレイにおける実行のドリフト、そして検証の信頼性の限界である。加えて、多段階の呼び出しとフォールバック動作に伴うレイテンシ／APIコストとのトレードオフもある。
本プロジェクトの中心的な目標は自動プレイだけでなく、UIのみの環境において戦略レベルの制御を可能にすることで、人間とシステムのインターフェースを改善することにある。

civStation - a VLM system for playing Civilization VI via strategy-level natural language

自然言語コマンドで『Civilization VI』をプレイするコンピュータ操作用VLMハーネス
「拡張を東へ」「経済に注力」「科学勝利を目指す」といった高レベルの意図を、実際のゲーム内アクションへ翻訳
戦略と実行を分離する3層アーキテクチャ（Strategy / Action / HITL）
- Strategy Layer：自然言語→構造化された目標に変換し、長期的な方向性を維持し、タスク分解を行う
- Action Layer：画面ベース（VLM）での状態解釈＋マウス/キーボード実行（ゲームAPIなし）
- HITL Layer：リアルタイム介入、上書き、制御可能な自律性を可能にする
1つの戦略から複数のアクションシーケンスを生成し、各タスクでモデル呼び出しはおよそ2〜16回
制約付きタスク向けのサブエージェントベース実行（例：都市管理、ユニット制御）
RL/IL/スクリプト方式ではなく、「アクション→意図」へとインターフェースをシフトさせることを探求
直接操作から、委任とエージェントのオーケストレーションへ移行
主要な技術課題：
- VLMの知覚エラー、
- 実行のドリフト、
- 信頼できる検証の欠如
複数ステップの実行はレイテンシとAPIコストのトレードオフを生み、フォールバック戦略は劣化する
完全自律ではない：リアルタイムの戦略修正と制御のためにヒューマン・イン・ザ・ループをサポート
UIのみの環境におけるエージェント制御と検証に取り組む実験的システム
焦点はゲームそのものだけではなく、人間とシステムのインターフェースを戦略レベルへ引き上げること