MistralのSmall 4は、推論・視覚理解・コーディングを1つのモデルに統合 — 推論コストのごく一部で

VentureBeat / 2026/3/20

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

Mistral Small 4は、推論・視覚理解・自律的なコーディングを1つのオープンソースモデルに統合し、遅延とトークンコストを最適化するために推論の負荷を調整可能にしている。
総パラメータ数は1190億にもかかわらず、1トークンあたりアクティブパラメータはわずか6Bにとどめ、QwenやClaude Haikuといった競合よりも低遅延・安価なトークンを実現することを目指している。
Magistral（推論）、Pixtral（マルチモーダル）、Devstral（コーディング）の能力を組み合わせ、256Kのコンテキストウィンドウと、128エキスパートから成るMoEアーキテクチャで、トークンごとに4つがアクティブになる。
Apache 2.0ライセンスの下で公開されており、速度とコスト面で競争力があると位置づけられている。ただし市場の断片化と認知度の課題が業界関係者によって指摘されている。
MistralはSmall 4が、企業が高速な指示型モデル、強力な推論エンジン、またはマルチモーダルアシスタントの3つの間で選択する必要を回避し、これら3つを1つのモデルで提供すると述べている。

企業は推論、マルチモーダルタスク、エージェント的コーディングの別々のモデルを使い分けてきたことで、スタックを簡素化できるかもしれません。Mistralの新しいSmall 4は、それら3つを1つのオープンソースモデルに統合し、内部で調整可能な推論レベルを備えています。

Small 4は、Qwenを含む競争の激しい小型モデルの分野に参入します — Qwen および Claude Haiku — これらは推論コストとベンチマーク性能で競っています。Mistralの提案は、出力を短くすることでレイテンシを低下させ、トークンを安価にすることです。

Mistral Small 4は、2025年6月公開のMistral Small 3.2で更新され、Apache 2.0ライセンスの下で提供されています。「Small 4では、ユーザーは高速な指示型モデル、強力な推論エンジン、マルチモーダルアシスタントのいずれを選ぶ必要がなくなります。1つのモデルが3つすべてを提供し、推論努力の設定と最高クラスの効率性を備えています」とMistralはブログ投稿で述べました。

同社は、総パラメータが1190億で、トークンあたりのアクティブパラメータがわずか60億にもかかわらず、Small 4がすべてのMistralモデルの機能を統合していると述べました。Magistralの推論機能、Pixtralのマルチモーダル理解、Devstralのエージェント的コーディング性能を備えています。さらに、長文の会話や分析に適していると同社が言う256Kのコンテキストウィンドウも搭載しています。

小型言語モデルのマーケットプレイスNeurometricの共同創業者でCEOのRob Mayは、VentureBeatに対して、Mistral Small 4はその構造的柔軟性で際立っていると語りました。しかし、それは市場の断片化をさらに招くリスクがあると、彼は指摘する、増えつつある小型モデルの一つに加わります。

「技術的な観点からは、他のモデルと競争できる可能性はある」とメイは述べました。「より大きな課題は、市場の混乱を克服することです。Mistralはまず市場の認知度を獲得して、そのテストセットの一部になる機会を得なければなりません。そうして初めてモデルの技術的能力を示すことができます。」

需要に応じた推論

小型モデルは、低コストで同じLLM体験を提供したいと考える企業構築者にとって、依然として良い選択肢を提供します。

このモデルは、他のMistralモデルと同様のエキスパート混成アーキテクチャに基づいています。128のエキスパートを持ち、各トークンにつき4つのアクティブなエキスパートを有することで、効率的なスケーリングと専門化を可能にするとMistralは述べています。

これにより、推論量が多い出力にも対しても、Mistral Small 4はより速く応答できるようになります。テキストと画像を処理・推論することもでき、ユーザーが文書やグラフを解析できるようにします。

Mistralは、reasoning_effortと呼ぶ新しいパラメータを備えており、ユーザーが「モデルの動作を動的に調整できる」ようになると述べました。企業はSmall 4を、Mistral Small 3.2と同じスタイルで迅速で軽量な応答を提供するように設定するか、Magistralの路線のように言葉数を増やして複雑なタスクの逐次推論を提供するよう設定できると、Mistralは述べています。

Mistralは、Small 4が同等のモデルより少ないチップで動作すると述べ、推奨セットアップとして4つのNVIDIA HGX H100 または H200、または2つのNVIDIA DGX B200を挙げています。

「高度なオープンソースAIモデルを提供するには、広範な最適化が必要です。NVIDIAとの緊密な協力を通じて、オープンソースのvLLMとSGLangの推論が最適化され、さまざまな展開シナリオにおいて効率的で高スループットな提供を実現しています」とMistralは述べました。

ベンチマークの性能

Mistral のベンチマークによれば、Small 4 は Mistral Medium 3.1 および Mistral Large 3 の水準に近く、特に MMLU Pro でそうです。

Mistral は、指示に従う性能により Small 4 が文書理解などの高ボリュームな企業タスクに適していると述べた。

他社の他の小型モデルと競合する一方で、Small 4 は依然として他の人気のあるオープンソースモデルを下回っており、特に推論が要求されるタスクではそうだ。LiveCodeBench では Qwen 3.5 122B および Qwen 3-next 80B が Small 4 を上回り、指示モードでは Claude Haiku も同様に上回る。

Mistral Small 4 は LCR で OpenAI の GPT-OSS 120B を上回ることができた。

Mistral は、Small 4 がこれらのスコアを「著しく短い出力」で達成しており、それが他のモデルより推論コストと遅延を低下させることにつながると主張している。特に指示モードでは、Small 4 はテストされたどのモデルよりも短い出力を出力する――Claude Haiku の 14.2K 文字、GPT-OSS 120B の 23.6K 文字に対して 2.1K 文字。推論モードでは出力ははるかに長くなる（18.7K）ことが、そのユースケースでは想定される。

May は、モデルの選択は組織の目標次第である一方、レイテンシは優先すべき3つの柱の1つだと述べた。『目標と、アーキテクチャを達成するために最適化していること次第です。エンタープライズはこれら3つの柱を優先すべきです：信頼性と構造化された出力、知能に対するレイテンシの比率、微調整とプライバシー。』と May は語った。