AI Navigate

Mistral Small 4は画像処理がかなりひどい

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 著者はMistral Small 4の画像認識を検証し、Q4_K_Mの設定でも公式APIでも結果が著しく悪いと判断した。
  • ある祭りの画像に対するキャプションは場面を誤認しており、画像には存在しないスタジアム、トラック、スタッフなどを描写している。
  • Qwen3.5 35B A3Bとの比較が挙げられており、同じ画像に対して小型モデルの方がより正確なキャプションを生成できる可能性があることを示唆している。
  • 本投稿はMistral Small 4の視覚理解の信頼性に懸念を示唆しており、画像関連のタスクには慎重に使用すべきであることを示している。

私は最初にQ4_K_Mでテストを始めたところ、画像認識があまりにもひどく、設定に何か問題があるのではないかと思いました。そこで、Mistralの公式APIを試したところ、画像機能も同様にひどく、これがモデルの実際の能力なのだろうと考えています。

「この画像を約200語で詳しく説明してください」というプロンプトと、この写真の音楽フェスティバルについて、Mistral Small 4 の公式APIが作成したナンセンスは以下のとおりです:

この画像は、屋外イベントと思われる大規模なスタジアムでの活気ある情景を捉えています。スポーツの試合やコンサートの可能性があります。スタジアムは観客の密集した群衆で満たされており、イベントが人気で多くの観客が来ていることを示唆しています。写真は高い視点から撮影されており、スタジアムとその周囲を包括的に見渡すことができます。上空の空は晴れた青色で、いくつかの雲が点在しており、天気が穏やかであることを示しています。スタジアムは自然光にさらされ、建築構造によって影の部分ができています。照明灯が上方に吊るされ、薄暮が訪れるとイベントを照らす準備が整っています。画像の下部中央には、スタッフと思われる人物が数人おり、スタジアムのトラック区域内を歩いています。席の部分は、観客の服装や旗の色で活気に満ちています。スタジアムの周囲には車両が駐車されており、灯りポールやおそらく売店などのいくつかの構造物も見えます。全体的な雰囲気は、賑やかで活気に満ちたもので、大規模な公共イベントの特徴です。

写真をご覧になると、Qwen の説明は非常に詳しく正確であり、Mistral は1年以上前のもののように聞こえます。

私はまた、前世代の Mistral Small 3.2 24B、および Ministral 3B、8B、14B もテストしました。私が試した他の Mistral モデルには、画像の解釈に問題はありませんでした。

この問題はこの画像だけに特有のものではなく、 Lenna を華麗な鳥の彫刻だと誤認することもありました。

これはモデルが非常に新しいことが原因の問題なのでしょうか?つまり、画像認識は完全に使い物にならないのでしょうか。

投稿者 /u/EffectiveCeilingFan
[リンク] [コメント]