Guess Llama - ローカル向けVision LLMのためのゲーム

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

Guess Llama は、ビジョンLLMバックエンド（例：llama.cpp の llama-server）と画像生成器（stable-diffusion.cpp の sd-server、または OpenRouter の画像モデル）を組み合わせた、ローカルで遊べる「Guess Who?」風のゲームで、テーマに基づくキャラクターセットを作成します。
ワークフローでは、各テーマにつき24枚のキャラクター画像を生成し、プレイヤーとボットの両方にランダムなキャラクターを割り当てます。その後、LLMは視覚入力に基づいて「はい／いいえ」で絞り込み質問をし、質問に答えることでゲームを進行します。
開発者のメモでは、ビジョンLLMは画像から絞り込み質問のロジックを生成できるだけでなく、自身の画像を使ってプレイヤーの質問にも回答できるため、直接の手動ラベリングなしでゲームループを成立させられるとしています。
初期結果では Qwen3.5 の方が性能が良い一方、Gemma4 の小型バリアントでは誤った絞り込みが起きることがあるようです。また、同じキャラクターが繰り返されないように画像のバリエーションが必要だとも強調しています。
推論／thinking を使う場合、応答遅延は長くなり得ます。画像生成と多段の推論（OpenRouter のようなリモートバックエンドを使っていても）によって大きな待ち時間が発生するためです。

Guess Llama - A game for local Vision LLM

私は Guess Llama と呼んでいるプロジェクトに取り組んできました。

その発想は、昔のゲームの Guess Who? に基づいています。

「Guess Llama」は、llama.cpp の llama-server のようなビジョンLLMバックエンドを使ってゲームを生成し、実行します。現在は、stable-diffusion.cpp の sd-server、または Openrouter.ai の画像生成モデルを使って画像を生成しています。

ゲーム用の「テーマ」を何でも入力できます。あるいは、ボットにテーマを生成させることもできます。例：「cat」「llama」「capybara」「clown」「space alien」など。
ボットはテーマに合う8つのアイテムを提案します。（画像のバリエーション用）
その後、画像サーバーが、そのテーマと各キャラクターにつき2つのアイテムを使って、24枚のキャラクター画像を生成します。
あなたとボットには、このセットからランダムに1人のキャラクターが割り当てられます。
あなたとボットは、お互いにYes/Noの質問を繰り返し、どちらかが1つに絞り込んで勝利するまで続けます。

LLMバックエンドは、排除（elimination）の質問を決める際には実際に画像を見ており、プレイヤーの排除質問への回答をするときは、自分自身の画像を見ます。

Qwen3.5 は、このゲームをうまくプレイできています。チートなしで例の動画の勝ちを引けたのには驚きました。Qwen3.5 に、私のカピバラの赤いバンダナについて聞かれたときは、終わったと思いました。

より小さい Gemma4 は少し混乱しているようでしたが、あまり詳しく検証はしていません。たとえば、私がその質問に正しく答えたのに、誤って私のキャラクターを排除してしまったことがありました。

ローカルの画像には Z-Image-Turbo を使っています。画像モデルが、同じキャラクターを2回作るのが苦手であることは、実は利点になります。欲しいのはバリエーションです。

思考/推論を行うと、ボットが応答を生成するのに かなり 長い時間がかかります。テストを速めるために OpenRouter をバックエンドとして使っても、やはり時間がかかります。

使われるコンテキストは、23枚の512×512画像をボットに提示する場合で、およそ6.2Kトークンです。

検証は llama-server と openrouter のみです。LMStudio などの他のバックエンドは 動くはず です。
検証は Linux のみです。github のワークフローでは、MacOS と Windows でも コンパイルできるはず と書かれています。
他の画像バックエンドを追加できる可能性があります。stable-diffusion.cpp と openrouter は、実装がいちばん簡単そうでした。
画像生成を待たずにこのテストをしたい場合は、用意された「Cat」テーマを使えます。
主に Qwen3.5 で検証しましたが、任意の数の画像（23枚）を入力できるビジョンモデルなら 再生できるはず です。
プロンプトキャッシュはありません。毎回トークンを処理します。

画像生成に openrouter の black-forest-labs/flux.2-klein-4b を使う場合、ローカルで生成したくないなら、現在は 1枚あたり 約$0.017 かかります。画像セットだと概ね $0.41/セットです。openrouter の qwen/qwen3.5-122b-a10b に対戦すると、1回のやり取りあたり最大 $0.02 かかることがあります。（各ラウンドには複数のやり取りがあり、質問を生成したり、回答をもとにキャラクターを排除したりします。）

これは、ビジョン系LLMゲームとしては、最も手が届きやすい（低い難易度の）題材に見えました。

submitted by /u/SM8085
[link] [comments]