mistralai/Mistral-Medium-3.5-128B(Hugging Face)

Reddit r/LocalLLaMA / 2026/4/30

📰 ニュースTools & Practical UsageModels & Research

要点

  • Mistral AIは、Hugging Faceで「Mistral Medium 3.5 128B」を公開し、指示追従・推論・コーディングを単一の統合モデルとしてより高性能にすることを目指しています。
  • 同モデルは高密度128Bパラメータで、最大256kのコンテキスト長に対応し、画像を含むマルチモーダル入力(テキスト出力)と視覚理解も可能です。
  • 推論の「Reasoning Mode」はリクエストごとに計算量(reasoning effort)を調整でき、短い応答から複雑なエージェント実行まで同一モデルで使い分けできます。
  • エージェント機能としてネイティブなfunction callingとJSON出力を備え、システムプロンプトへの追従性も強化されています。
  • ライセンスはModified MIT Licenseで、従来のMistral Medium 3.1/Magistral(Le Chat)やDevstral 2(Vibeのコーディングエージェント)に置き換わる位置付けです。
mistralai/Mistral-Medium-3.5-128B · Hugging Face

https://huggingface.co/unsloth/Mistral-Medium-3.5-128B-GGUF

Mistral Medium 3.5 128B

Mistral Medium 3.5 は、私たちの最初のフラッグシップとなる統合モデルです。これは 256k のコンテキストウィンドウを備えた 128B の高密度モデルで、単一の重みセットで命令追従、推論、コーディングを扱います。Mistral Medium 3.5 は、Le Chat における先代の Mistral Medium 3.1 と Magistral に置き換わります。また、コーディングエージェント Vibe における Devstral 2 も置き換えます。具体的には、これまでにリリースしたモデルと比較して、新しい統合モデルで instruct、推論、コーディングのタスクのパフォーマンスが向上することを期待してください。

推論の実行量はリクエストごとに設定可能なので、同じモデルで短いチャットの返信にも対応できますし、複雑なエージェント的な実行を進めることもできます。可変の画像サイズとアスペクト比に対応するため、視覚エンコーダは最初からスクラッチで学習させました。

詳細は私たちの ブログ をご覧ください。

主な特徴

Mistral Medium 3.5 には、以下のアーキテクチャ上の選択が含まれます:

  • 高密度 128B パラメータ
  • 256k のコンテキスト長
  • マルチモーダル入力:テキストと画像の両方の入力を受け取り、テキスト出力を行います。
  • 関数呼び出しによる instruct および推論機能(推論の実行量はリクエストごとに設定可能)。

Mistral Medium 3.5 は、以下の能力を提供します:

  • 推論モード:高速な即時返信モードと推論モードを切り替えられます。要望に応じてテスト時の計算量を増やすことで、性能が向上します。
  • Vision(視覚):画像を解析し、テキストに加えて、視覚コンテンツに基づく洞察を提供します。
  • 多言語:英語、フランス語、スペイン語、ドイツ語、イタリア語、ポルトガル語、オランダ語、中国語、日本語、韓国語、アラビア語など、数十の言語をサポートします。
  • システムプロンプト:システムプロンプトへの強い遵守とサポート。
  • エージェント的:ネイティブの関数呼び出しと JSON 出力による、最上級のエージェント機能。
  • 大きなコンテキストウィンドウ:256k のコンテキストウィンドウをサポート。

このモデルは 修正版 MIT ライセンス)のもとで公開します。これは、売上が大きい企業に例外があることを含む、商用および非商用の両方で利用可能なオープンソースライセンスです。

推奨設定

  • 推論の実行量
    • 'none' → 推論を使用しない
    • 'high' → 推論を使用する(複雑なプロンプトやエージェント的な利用に推奨) 複雑なタスクやエージェント的なコーディングには、reasoning_effort="high" を使用してください。
  • 温度reasoning_effort="high" の場合は 0.7。 reasoning_effort="none" の場合はタスクに応じて 0.0 から 0.7 の範囲で設定します。一般に、低いほど要点を押さえた回答になり、高いほどモデルがより創造的になれます。モデルの性能を高めて要求に合うようにするためには、異なる値を試すのは良い習慣です。
submitted by /u/jacek2023
[リンク] [コメント]