K2.6をサードパーティのコーディングベンチマークで検証:数値はどう見えるか

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者はAkitaonrailsのコーディングベンチマーク(固定のRails+Ruby+LLM+Docker構成)でK2.6を計測したと報告し、スコア87でTier A(80+)に入ったと述べています。
  • 同じ再現可能なベンチマークでは、K2.6がQwen 3.6 Plus(71)やDeepSeek v4 Flash(78)、さらにGLM 5.1よりも上位だったとされています(GLM 5.1はTier Cに落ちたとのこと)。
  • ポストは、Tier AとTier Bの差は単なるスコア見出しではなく、適切なテスト用モック、エラーパス処理、マルチワーカの永続化、型付きエラーなどの実務的な振る舞いにあると強調しています。
  • また、オープンウェイトモデルの「性能低下」がモデル本体ではなく、2026年のローカル実行時のツールチェーン問題(llama.cppの不具合、ツール呼び出しパーサの欠落、Ollamaのタイムアウトで長いエージェント実行が失敗する等)による可能性があるとも警告しています。
  • 総じて、方法論が固定された再現ベンチでTier Aを達成することは、ベンダーの報告によるマーケティングより信頼性の高い主張になり得る一方、最上位(Opus 4.7やGPT 5.4が97で同点とされる)には依然ギャップがあると述べています。

私は、ベンダーが報告した評価ではなく、固定されたRails + Rubyllm + dockerのタスクに対してテストするakitaonrailsのコーディング・ベンチマークを追跡してきました。2026年4月のアップデートでは、K2.6がティアA(80+)に87で入り、Qwen 3.6 plus(71)、Deepseek v4 flash(78)、そしてティアCにまで落ちたGLM 5.1よりも上でした。

背景として、opus 4.7とgpt 5.4は97で同点なので、トップにはまだ実際のギャップがあります……ただし、再現された方法論(固定されたベンチマーク)でK2.6がティアAに到達したというのは、ベンダーのベンチマーク宣伝とは別物の主張です。

実際には、ティアAとティアBを分けるものは何でしょうか。……適切なテストのモッキング、エラーパスのハンドリング、マルチワーカーでの永続性、型付きのエラーです。K2.6はこれらの大半に合格しています。ほとんどの他のオープンウェイトのモデルは、そのうち2〜3個を無言で失敗します。

同じベンチマークからの実用的な注記として、2026年にローカルでオープンソースを動かす上で課題の半分はモデルではなくツールチェーンです。llama.cppのバグ、ツール呼び出しパーサーの欠落、ollamaのタイムアウトが長いエージェント実行を中断します。モデル自体のせいだと見なす前に、これを念頭に置いておく価値があります。

提出者 /u/lucasbennett_1
[リンク] [コメント]