|
[リンク] [コメント] |
civStation - 戦略レベルの自然言語で『シヴィライゼーション VI』をプレイするためのVLMシステム
Reddit r/LocalLLaMA / 2026/3/31
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- civStationは、戦略レベルの自然言語による指示(例:「経済に注力する」や「科学勝利を目指す」)を具体的なゲーム内アクションへ翻訳することで、『シヴィライゼーション VI』をプレイする、実験的な「コンピュータ利用」型VLMシステムである。
- 本システムは3層構造を採用しており、Strategy(意図/目標の計画と分解)、Action(VLMベースの画面解釈と、ゲームAPIを用いないマウス/キーボード実行)、HITL(リアルタイム制御のためのヒト介入による上書き)から成る。
- 単一のアクション列に依存するのではなく、1つの戦略を計画したうえで、各タスクごとに複数の可能なアクション列を生成する。通常、必要となるのは約2〜16回のモデル呼び出しである。
- 実行は、市街地管理やユニット制御などの境界が明確なゲームプレイタスクごとにサブエージェントを用いて実装されており、「アクション → 意図」から「委任とエージェントのオーケストレーション」へとインタラクションを移行させることを重視している。
- 挙げられている主要な課題は、VLMの知覚エラー、多段階のプレイにおける実行のドリフト、そして検証の信頼性の限界である。加えて、多段階の呼び出しとフォールバック動作に伴うレイテンシ/APIコストとのトレードオフもある。
- 本プロジェクトの中心的な目標は自動プレイだけでなく、UIのみの環境において戦略レベルの制御を可能にすることで、人間とシステムのインターフェースを改善することにある。




