| 私はcivStationという、オープンソースの制御可能なコンピューター利用(computer-use)スタック/VLMハーネスを構築しました。対象はCivilization VIです。 目的は単にエージェントにCiv6をプレイさせることではなく、モデルがゲーム画面を観察し、高レベルの戦略を解釈し、アクションを計画して、マウスとキーボードでそれを実行し、人間がライブで(HitL:人間を介したループ、またはMCPによって)割り込んだり導いたりできるようなループを作ることでした。 私はCiv6を低レベルのUI自動化の問題として扱うのではなく、戦略レベルでの制御を探りたかったのです。 「次のような入力」を与えられます: “east(東)に拡張する” そして、その意図を実際のゲーム内アクションへとシステムが変換します。 高レベルでは、このループは次のように見えます: 画面観察 → 戦略解釈 → アクション計画 → 実行 → 人間の上書き(override) この点は、人間のクリックを単に再現するだけよりも、ずっと面白いと感じました。なぜならインターフェースが上に持ち上がるからです――直接実行から、意図の表現と制御可能な委任へ。 多くのコンピューター利用デモは「モデルにクリックさせるのを見ること」に焦点を当てています。 私は、元のUI操作そのものではなく戦略のレベルで操作できる、より制御可能な実行環境(runtime)に近いものが欲しかったのです。 もう一つの動機は、多くのゲームUXは依然として根本的に、マウス、キーボード、コントローラーの制約によって形作られていることです。これは単に操作体系に影響するだけでなく、私たちがそもそも想像する相互作用の種類にも影響します。 私は、ボイスと自然言語を、コンピューター利用と組み合わせることで、別のインタラクション層――プレイヤーがアクションを直接実行するのではなく、指示を出す戦略家のように振る舞う――を開けるのかどうかを確かめたかったのです。 現時点のプロジェクトには、ライブなデスクトップ観察、ホストマシン上での実際のUI操作、ランタイムの制御インターフェース、人間を介したループ制御、MCP/スキル拡張、自然言語または音声による制御が含まれています。 私が調べているいくつかの問い: 戦略と実行の境界線はどこにあるべきでしょうか? [link] [comments] |
Civilization VI向けに、制御可能なコンピュータ利用VLM(音声&自然言語の戦略 → UIアクション)ハーネスを構築
Reddit r/LocalLLaMA / 2026/3/31
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage
要点
- 著者は「civStation」を開発した。これはオープンソースの、制御可能な視覚言語モデル(VLM)ハーネスであり、音声または自然言語の戦略を、マウス/キーボードによる具体的なUIアクションへと翻訳することで、Civilization VI をプレイする。
- 本システムは、低レベルの「クリックの再現」デモではなく、戦略レベルのループ—画面観察、戦略解釈、行動計画、実行—として設計されている。
- 人間が介入して上書き/ガイダンスできる仕組みを備えており、またMCP/スキルの拡張性にも言及している。これにより、ライブでの中断や、モジュール的な能力拡張が可能になる。
- プロジェクトは、インタラクション層をより上位へ移すこと(意図の表現と、制御可能な委譲)を重視し、戦略と実行の最適な境界はどこにあるべきか、さらに頑健性とレイテンシのトレードオフについての問いを投げかけている。
- 著者は、civStation を「このアプローチがゲーム以外のデスクトップ業務にも一般化できるのか」というより広い問いを検証するためのテストベッドとして位置づけ、実験用のリポジトリを提供している。




