ローカルで動くコーディング用モデルが、実作業で使える水準に到達した

Reddit r/LocalLLaMA / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 記事では、オープンウェイトの27B〜32B規模のコーディングモデルをTerminal-Bench 2.0でベンチマークし、公的リーダーボードと同じデフォルトのタイムアウト条件で評価した結果、Qwen 3.6-27Bが最良で38.2%(34/89)だったと報告しています。
  • 38.2%は検証済みのホスト型SOTA(約80%)には及びませんが、重要なのはこのスコアが“オフラインでのコーディング用途での時間”にどう換算されるかという点です。
  • 検証済みリーダーボードのエントリーのリリース日と照合すると、最良の“実行可能なオフライン”モデルは2025年後半のホスト型フロンティアに相当し、遅れはおよそ6〜8か月と推定されます。
  • 著者らは、この性能が規制環境、エアギャップ、オンプレCI、バッチ処理といった実運用で意味を持つほどに近づいたのは今回が初めてだと主張しています。
  • さらに、Mixture-of-Experts(MoE)モデルは推論速度で約1桁(オーダーオブマグニチュード)の改善が見られると述べています。
コーディングにおけるローカルモデルが、実際の仕事に実用となる一定の閾値に到達した

Terminal-Bench 2.0(89タスク、terminal-bench-2.git @ 69671fb)で、当社のエージェントハーネスにより、オープンウェイトの27B〜32Bモデルを実行しました。最高結果は、デフォルトのタスクごとのタイムアウト(公的リーダーボードが使っているのと同じ制約)下でのQwen 3.6-27Bの38.2%(34/89)でした(Qwenの公式投稿では、より緩い設定が使われています)。私たちは、検証済みリーダーボードに対して1対1で比較できるようにするため、TBの公式リーダーボードと同じデフォルト設定を意図的に使用しました。

https://preview.redd.it/zqlzk1303uxg1.png?width=1800&format=png&auto=webp&s=42c0526b2ce9377cad927ef68e24fae1a89181c6

興味深い発見として、MOEモデルは推論速度の面で、まだ一桁(オーダー・オブ・マグニチュード)規模の改善が見られます。

https://preview.redd.it/wbmsuq704uxg1.png?width=1000&format=png&auto=webp&s=17db5694f34a2e869e9a4b66696d4986f90a982b

面白いのは、絶対値としての38.2%そのものではありません。現在の検証済みSOTAは~80%(GPT-5.5 / Opus 4.6 / Gemini 3.1 Pro)だからです。面白いのは、38.2%が時間のどれくらいに相当するか、という点です。

検証済みリーダーボード掲載エントリのモデルリリース日に基づくと:

  • Terminus 2 + Claude Opus 4.1(2025年8月リリース):38.0%
  • Terminus 2 + GPT-5.1-Codex(2025年11月):36.9%
  • Claude Code + Sonnet 4.5(2025年9月):40.1%
  • Codex CLI + GPT-5-Codex(2025年9月):44.3%

つまり、今日使えるオフラインのコーディングモデルとして最高のものは、ホスト型のフロンティアが2025年末に到達していた位置に、だいたい相当しています。遅れは約6〜8か月です。これは、実際の導入(規制環境、エアギャップ、オンプレCI、バッチワークロード)にとって重要になるほど十分に近づいたのは初めてです。

https://preview.redd.it/ykkbj61o3uxg1.png?width=1284&format=png&auto=webp&s=8af000a5095c41a917bfc2c7098571a50dfd013d

詳細はブログで:https://antigma.ai/blog/2026/04/24/offline-coding-models

submitted by /u/Exciting-Camera3226
[リンク] [コメント]