私は、Llama 3 が話題になる前から自宅でLLMをセルフホスティングしてきました。そして Gemma 4 は、私のツール呼び出しテストにおいて実際に 100% の成功率を持つ最初のモデルです。
私がLLMを使う主な目的は、N8N を使って構築したカスタムの音声アシスタントで、バックエンドでは websearch やカスタムの MQTT ツールなどのカスタムツールを用いています。大きいのは、私の家庭が多言語だという点で、英語・ドイツ語・日本語を使っています。使用するウェイクワードに基づいて、文脈(コンテキスト)やプロンプト、そしてツールの説明が、その言語に応じて切り替わります。
私の環境は 68GB のVRAM(3090 を2台 + 3080 を 20GB)で、主に遅延を最小化するために moe モデルを使っています。これまで私は、30B の MOE から Qwen Next、GPTOSS、GLM AIR まで色々試してきましたが、ツール呼び出しにおいて3つの言語すべてで 100% の成功率を示したのは Gemma4 26BA4B だけでした。
[リンク] [コメント]



