Civilization VI向けに、制御可能なコンピュータ利用VLM（音声＆自然言語の戦略 → UIアクション）ハーネスを構築

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

著者は「civStation」を開発した。これはオープンソースの、制御可能な視覚言語モデル（VLM）ハーネスであり、音声または自然言語の戦略を、マウス／キーボードによる具体的なUIアクションへと翻訳することで、Civilization VI をプレイする。
本システムは、低レベルの「クリックの再現」デモではなく、戦略レベルのループ—画面観察、戦略解釈、行動計画、実行—として設計されている。
人間が介入して上書き／ガイダンスできる仕組みを備えており、またMCP／スキルの拡張性にも言及している。これにより、ライブでの中断や、モジュール的な能力拡張が可能になる。
プロジェクトは、インタラクション層をより上位へ移すこと（意図の表現と、制御可能な委譲）を重視し、戦略と実行の最適な境界はどこにあるべきか、さらに頑健性とレイテンシのトレードオフについての問いを投げかけている。
著者は、civStation を「このアプローチがゲーム以外のデスクトップ業務にも一般化できるのか」というより広い問いを検証するためのテストベッドとして位置づけ、実験用のリポジトリを提供している。

Built a controllable computer-use VLM harness for Civilization VI (voice & natural language strategy → UI actions)

私はcivStationという、オープンソースの制御可能なコンピューター利用（computer-use）スタック／VLMハーネスを構築しました。対象はCivilization VIです。

目的は単にエージェントにCiv6をプレイさせることではなく、モデルがゲーム画面を観察し、高レベルの戦略を解釈し、アクションを計画して、マウスとキーボードでそれを実行し、人間がライブで（HitL：人間を介したループ、またはMCPによって）割り込んだり導いたりできるようなループを作ることでした。

私はCiv6を低レベルのUI自動化の問題として扱うのではなく、戦略レベルでの制御を探りたかったのです。

「次のような入力」を与えられます：

“east（東）に拡張する”
“今ターンは経済に集中する”
“科学勝利を狙う”

そして、その意図を実際のゲーム内アクションへとシステムが変換します。

高レベルでは、このループは次のように見えます：

画面観察 → 戦略解釈 → アクション計画 → 実行 → 人間の上書き（override）

この点は、人間のクリックを単に再現するだけよりも、ずっと面白いと感じました。なぜならインターフェースが上に持ち上がるからです――直接実行から、意図の表現と制御可能な委任へ。

多くのコンピューター利用デモは「モデルにクリックさせるのを見ること」に焦点を当てています。

私は、元のUI操作そのものではなく戦略のレベルで操作できる、より制御可能な実行環境（runtime）に近いものが欲しかったのです。

もう一つの動機は、多くのゲームUXは依然として根本的に、マウス、キーボード、コントローラーの制約によって形作られていることです。これは単に操作体系に影響するだけでなく、私たちがそもそも想像する相互作用の種類にも影響します。

私は、ボイスと自然言語を、コンピューター利用と組み合わせることで、別のインタラクション層――プレイヤーがアクションを直接実行するのではなく、指示を出す戦略家のように振る舞う――を開けるのかどうかを確かめたかったのです。

現時点のプロジェクトには、ライブなデスクトップ観察、ホストマシン上での実際のUI操作、ランタイムの制御インターフェース、人間を介したループ制御、MCP／スキル拡張、自然言語または音声による制御が含まれています。

私が調べているいくつかの問い：

戦略と実行の境界線はどこにあるべきでしょうか？
コンピューター利用エージェントは、ループが遅すぎたり脆くなったりする前に、どれほど制御可能になり得るでしょうか？
このアプローチはゲームに対してのみ意味があるのか、それともより広いデスクトップのワークフローにも適用できるのか？

Repo: https://github.com/NomaDamas/civStation.git

submitted by /u/Working_Original9624
[link] [comments]

Black Hat Asia

AI Business

【64歳からのAI挑戦no.8】なぜ60代こそAIを学ぶべきだと思ったのか― AI時代に求められる本当の力 ―

note

【Gemini3.1Pro、GPT-5.3Instant】💯出るか⁉️チャレンジ‼️あなたの大好きな美女、彼女、奥さんは何点？AI画像審美評価員2981文字プロンプト

note

草薙素子はなぜ消えたのか——AI時代の2026年、押井守が1995年に問い続けたものの正体

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

Civilization VI向けに、制御可能なコンピュータ利用VLM（音声＆自然言語の戦略 → UIアクション）ハーネスを構築

要点

関連記事

Black Hat Asia

【64歳からのAI挑戦no.8】なぜ60代こそAIを学ぶべきだと思ったのか― AI時代に求められる本当の力 ―

【Gemini3.1Pro、GPT-5.3Instant】💯出るか⁉️チャレンジ‼️あなたの大好きな美女、彼女、奥さんは何点？AI画像審美評価員2981文字プロンプト

草薙素子はなぜ消えたのか——AI時代の2026年、押井守が1995年に問い続けたものの正体

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

【64歳からのAI挑戦no.8】なぜ60代こそAIを学ぶべきだと思ったのか― AI時代に求められる本当の力 ―

【Gemini3.1Pro、GPT-5.3Instant】💯出るか⁉️チャレンジ‼️あなたの大好きな美女、彼女、奥さんは何点？AI画像審美評価員2981文字プロンプト

草薙素子はなぜ消えたのか——AI時代の2026年、押井守が1995年に問い続けたものの正体

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター