Mi:dm K 2.5 Pro

arXiv cs.CL / 2026/3/20

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

Mi:dm K 2.5 Pro は、エンタープライズ級の複雑さを前提とした320億パラメータのフラグシップLLMであり、多段階推論、長い文脈理解、そして主体的なワークフローを優先します。
コードのAST解析による堅牢なデータ基盤、数学のギャップ補完合成、そしてLLMベースの品質評価器を構築し、前訓練はレイヤー予測器に基づくDepth Upscaling（DuS）と128Kトークンの文脈ウィンドウで拡張されます。
学習パイプラインには Reasoning SFT（推論SFT）、モデルのマージ、非同期強化学習、そして推論能力と会話の流暢さ、信頼できるツール利用のバランスを取るFusion Trainingが含まれます。
世界および国内の主要モデルに対して競争力のある性能を示し、韓国のベンチマークで最先端の成果を示し、安全な展開のための責任あるAI評価（Responsible AI）を実施しています。

要約: 進化するLLMの状況は、単純なテキスト生成を超える能力を必要とし、多段階の推論、長い文脈の理解、エージェント的なワークフローを重視します。この変化は、エンタープライズ環境における既存モデルに挑戦を課します。特に韓国語対応やドメイン特化のシナリオでは、スケーリングだけでは不十分です。私たちはMi:dm K 2.5 Proを紹介します。32BパラメータのフラッグシップLLMで、推論重視の最適化を通じて企業レベルの複雑さに対処する設計です。
我々の方法論は、コードには抽象構文木（AST）分析、数学にはギャップフィリング合成、そしてLLMベースの品質評価者を用いた、品質重視のキュレーション・パイプラインを通じて、堅牢なデータ基盤を構築します。事前学習は、Layer-predictorベースのDepth Upscaling（DuS）と、128Kトークンのコンテキストウィンドウをサポートする段階的戦略を通じてモデルをスケールさせます。事後学習では、Reasoning SFT、モデル結合、非同期強化学習（RL）を含む専門的な多段階パイプラインを導入し、複雑な問題解決能力を育成します。「Fusion Training」はこれらの能力を、会話の流暢さ、一貫した応答スタイル、信頼性の高いツール使用とともに再均衡させます。評価は、Mi:dm K 2.5 Proが世界的および国内の主要モデルに対して競争力のある性能を達成することを示しています。さらに、韓国語特有のベンチマークで最先端の結果を達成し、深い言語的・文化的理解を示します。最後に、責任あるAIの評価は攻撃に対する安全性を検証し、無害性と応答性のバランスを保ったデプロイメントの安全性を保証します。