| Terminal-Bench 2.0(89タスク、 興味深い発見として、MOEモデルは推論速度の面で、まだ一桁(オーダー・オブ・マグニチュード)規模の改善が見られます。 面白いのは、絶対値としての38.2%そのものではありません。現在の検証済みSOTAは~80%(GPT-5.5 / Opus 4.6 / Gemini 3.1 Pro)だからです。面白いのは、38.2%が時間のどれくらいに相当するか、という点です。 検証済みリーダーボード掲載エントリのモデルリリース日に基づくと:
つまり、今日使えるオフラインのコーディングモデルとして最高のものは、ホスト型のフロンティアが2025年末に到達していた位置に、だいたい相当しています。遅れは約6〜8か月です。これは、実際の導入(規制環境、エアギャップ、オンプレCI、バッチワークロード)にとって重要になるほど十分に近づいたのは初めてです。 詳細はブログで:https://antigma.ai/blog/2026/04/24/offline-coding-models [リンク] [コメント] |
ローカルで動くコーディング用モデルが、実作業で使える水準に到達した
Reddit r/LocalLLaMA / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 記事では、オープンウェイトの27B〜32B規模のコーディングモデルをTerminal-Bench 2.0でベンチマークし、公的リーダーボードと同じデフォルトのタイムアウト条件で評価した結果、Qwen 3.6-27Bが最良で38.2%(34/89)だったと報告しています。
- 38.2%は検証済みのホスト型SOTA(約80%)には及びませんが、重要なのはこのスコアが“オフラインでのコーディング用途での時間”にどう換算されるかという点です。
- 検証済みリーダーボードのエントリーのリリース日と照合すると、最良の“実行可能なオフライン”モデルは2025年後半のホスト型フロンティアに相当し、遅れはおよそ6〜8か月と推定されます。
- 著者らは、この性能が規制環境、エアギャップ、オンプレCI、バッチ処理といった実運用で意味を持つほどに近づいたのは今回が初めてだと主張しています。
- さらに、Mixture-of-Experts(MoE)モデルは推論速度で約1桁(オーダーオブマグニチュード)の改善が見られると述べています。




