私は、ベンダーが報告した評価ではなく、固定されたRails + Rubyllm + dockerのタスクに対してテストするakitaonrailsのコーディング・ベンチマークを追跡してきました。2026年4月のアップデートでは、K2.6がティアA(80+)に87で入り、Qwen 3.6 plus(71)、Deepseek v4 flash(78)、そしてティアCにまで落ちたGLM 5.1よりも上でした。
背景として、opus 4.7とgpt 5.4は97で同点なので、トップにはまだ実際のギャップがあります……ただし、再現された方法論(固定されたベンチマーク)でK2.6がティアAに到達したというのは、ベンダーのベンチマーク宣伝とは別物の主張です。
実際には、ティアAとティアBを分けるものは何でしょうか。……適切なテストのモッキング、エラーパスのハンドリング、マルチワーカーでの永続性、型付きのエラーです。K2.6はこれらの大半に合格しています。ほとんどの他のオープンウェイトのモデルは、そのうち2〜3個を無言で失敗します。
同じベンチマークからの実用的な注記として、2026年にローカルでオープンソースを動かす上で課題の半分はモデルではなくツールチェーンです。llama.cppのバグ、ツール呼び出しパーサーの欠落、ollamaのタイムアウトが長いエージェント実行を中断します。モデル自体のせいだと見なす前に、これを念頭に置いておく価値があります。
[リンク] [コメント]



