私は最初にQ4_K_Mでテストを始めたところ、画像認識があまりにもひどく、設定に何か問題があるのではないかと思いました。そこで、Mistralの公式APIを試したところ、画像機能も同様にひどく、これがモデルの実際の能力なのだろうと考えています。
「この画像を約200語で詳しく説明してください」というプロンプトと、この写真の音楽フェスティバルについて、Mistral Small 4 の公式APIが作成したナンセンスは以下のとおりです:
この画像は、屋外イベントと思われる大規模なスタジアムでの活気ある情景を捉えています。スポーツの試合やコンサートの可能性があります。スタジアムは観客の密集した群衆で満たされており、イベントが人気で多くの観客が来ていることを示唆しています。写真は高い視点から撮影されており、スタジアムとその周囲を包括的に見渡すことができます。上空の空は晴れた青色で、いくつかの雲が点在しており、天気が穏やかであることを示しています。スタジアムは自然光にさらされ、建築構造によって影の部分ができています。照明灯が上方に吊るされ、薄暮が訪れるとイベントを照らす準備が整っています。画像の下部中央には、スタッフと思われる人物が数人おり、スタジアムのトラック区域内を歩いています。席の部分は、観客の服装や旗の色で活気に満ちています。スタジアムの周囲には車両が駐車されており、灯りポールやおそらく売店などのいくつかの構造物も見えます。全体的な雰囲気は、賑やかで活気に満ちたもので、大規模な公共イベントの特徴です。 写真をご覧になると、Qwen の説明は非常に詳しく正確であり、Mistral は1年以上前のもののように聞こえます。
私はまた、前世代の Mistral Small 3.2 24B、および Ministral 3B、8B、14B もテストしました。私が試した他の Mistral モデルには、画像の解釈に問題はありませんでした。
この問題はこの画像だけに特有のものではなく、 Lenna を華麗な鳥の彫刻だと誤認することもありました。
これはモデルが非常に新しいことが原因の問題なのでしょうか?つまり、画像認識は完全に使い物にならないのでしょうか。
[リンク] [コメント]




