| 私は Guess Llama と呼んでいるプロジェクトに取り組んできました。 その発想は、昔のゲームの Guess Who? に基づいています。 「Guess Llama」は、llama.cpp の llama-server のようなビジョンLLMバックエンドを使ってゲームを生成し、実行します。現在は、stable-diffusion.cpp の sd-server、または Openrouter.ai の画像生成モデル を使って画像を生成しています。
LLMバックエンドは、排除(elimination)の質問を決める際には実際に画像を見ており、プレイヤーの排除質問への回答をするときは、自分自身の画像を見ます。 Qwen3.5 は、このゲームをうまくプレイできています。チートなしで例の動画の勝ちを引けたのには驚きました。Qwen3.5 に、私のカピバラの赤いバンダナについて聞かれたときは、終わったと思いました。 より小さい Gemma4 は少し混乱しているようでしたが、あまり詳しく検証はしていません。たとえば、私がその質問に正しく答えたのに、誤って私のキャラクターを排除してしまったことがありました。 ローカルの画像には Z-Image-Turbo を使っています。画像モデルが、同じキャラクターを2回作るのが苦手であることは、実は利点になります。欲しいのはバリエーションです。 思考/推論を行うと、ボットが応答を生成するのに かなり 長い時間がかかります。テストを速めるために OpenRouter をバックエンドとして使っても、やはり時間がかかります。 使われるコンテキストは、23枚の512×512画像をボットに提示する場合で、およそ6.2Kトークンです。
画像生成に openrouter の これは、ビジョン系LLMゲームとしては、最も手が届きやすい(低い難易度の)題材に見えました。 [link] [comments] |
Guess Llama - ローカル向けVision LLMのためのゲーム
Reddit r/LocalLLaMA / 2026/4/11
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- Guess Llama は、ビジョンLLMバックエンド(例:llama.cpp の llama-server)と画像生成器(stable-diffusion.cpp の sd-server、または OpenRouter の画像モデル)を組み合わせた、ローカルで遊べる「Guess Who?」風のゲームで、テーマに基づくキャラクターセットを作成します。
- ワークフローでは、各テーマにつき24枚のキャラクター画像を生成し、プレイヤーとボットの両方にランダムなキャラクターを割り当てます。その後、LLMは視覚入力に基づいて「はい/いいえ」で絞り込み質問をし、質問に答えることでゲームを進行します。
- 開発者のメモでは、ビジョンLLMは画像から絞り込み質問のロジックを生成できるだけでなく、自身の画像を使ってプレイヤーの質問にも回答できるため、直接の手動ラベリングなしでゲームループを成立させられるとしています。
- 初期結果では Qwen3.5 の方が性能が良い一方、Gemma4 の小型バリアントでは誤った絞り込みが起きることがあるようです。また、同じキャラクターが繰り返されないように画像のバリエーションが必要だとも強調しています。
- 推論/thinking を使う場合、応答遅延は長くなり得ます。画像生成と多段の推論(OpenRouter のようなリモートバックエンドを使っていても)によって大きな待ち時間が発生するためです。




