gemma 4 E4B および E2B モデルには、内蔵のマルチモーダル機能があります。ただ、私の知る限りでは、(少なくとも現時点では)これらのモデルに対して llama.cpp がビジョンおよび音声入力(特に音声)を適切にサポートできているわけではありません。
私は、huggingface の公式モデルリポジトリから音声エンコーダを取り出すことができ、さらに、音声の埋め込みを直接モデルへ渡すブリッジを vibe-code で作成しましたが、実際にそれでもちゃんと動きました。このシステムは Q4 の Unsloth's GGUF バージョンと、音声エンコーダをフル精度(pytorch)で使用し、必要な VRAM は約 5.5〜6GB です。
ただ、この一連の仕組みは、本来はすぐに利用できるはずで、もっと頑丈に組み込まれていて、私のような誰かが vibe-code で作るようなものではないように感じます。
たぶん私が単に知らないだけだと思いますが、6GB 未満の VRAM でモデルのマルチモーダル機能を、より完全でハックっぽくない形で使う方法を探しています。もし誰かがこれについて案内してくれるなら、それはとてもありがたいです!
P.s:mistral.rs も試しましたが、マルチモーダル機能を使うには、何か理由があって追加でかなり多くの VRAM が必要になるようだと思っています。
[link] [comments]



