model: forforever73 による step3-vl-10b のサポート · Pull Request #21287 · ggml-org/llama.cpp

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ggml-org/llama.cpp リポジトリのプルリクエスト #21287 では、オープンソースのマルチモーダル基盤モデル「STEP3-VL-10B」のサポートが追加されています。
  • STEP3-VL-10B は、約10Bパラメータ規模の軽量モデルとして位置付けられており、強力な視覚認識、複雑な推論、人間中心のアラインメントを実現することを目指しています。
  • この記事では、STEP3-VL-10B が 10B スケールの他のモデルよりも優れ、さらに、より大規模なオープンウェイト・モデルに対しても大幅に凌駕または同等以上になれると主張しています(そのサイズは概ね 10×〜20×程度と報告されています)。
  • このプルリクエストは Reddit の投稿を通じて共有されており、llama.cpp のサポートによりローカルで STEP3-VL-10B を実行・利用したいというコミュニティの関心が示唆されています。
model: support step3-vl-10b by forforever73 · Pull Request #21287 · ggml-org/llama.cpp

STEP3-VL-10B は、コンパクトな効率性と最先端レベルのマルチモーダル知能のトレードオフを再定義することを目的に設計された、軽量なオープンソースの基盤モデルです。コンパクトな10Bパラメータの規模にもかかわらず、STEP3-VL-10B は視覚認識複雑な推論、そして人間中心のアラインメント において優れています。これは常に 10B スケール以下のモデルを上回り、GLM-4.6V(106B-A12B)、Qwen3-VL-Thinking(235B-A22B)といった、(自身のサイズの)10×〜20× も大きい、より大規模なオープンウェイトモデルに対しても匹敵、あるいは大幅に上回ります。さらに Gemini 2.5 Pro や Seed-1.5-VL のような一流の専有フラッグシップとも競り合ったり、凌駕したりします。

submitted by /u/jacek2023
[link] [comments]