この記事を今日読んだ。いくつか、クレイジーな数字がある。
tau2-bench の数値は、すべての難易度レベルで 98% です。これが僕を掴んだポイントで、通常こういうリリースは強めで取り組みやすいスコアを出してから、難しさの段階になると静かに死んでいくものです。これは……その(性能を)維持すると主張している。
実際に多くのベンチマークよりも重要な「マルチステップのエージェント作業」のために。6 ステップのチェーンのうちステップ 4 でズレるモデルは、SWE スコアがどう見えていようとデバッグ地獄です。
素の能力は中くらい。Toolathlon は 49.5、GDPval は 45.8。なので、これは明らかにフロンティア能力のプレイというより信頼性のプレイです。用途によってはそれで十分か、あるいは致命的な条件(ディールブレーカー)になります。
- 198B スパース MoE
- 11B activ
- 400 TPS
- 256K コンテキスト
- Apache 2.0
- M4 Max と DGX Spark 上でローカル実行可能。
誰か実際にこれをエージェントの評価(evals)に通した人いる?それとも、僕がリリースカードを読んでいるだけなのかな。
[link] [comments]




