Step 3.7 Flashのオープンウェイトが“今日”公開され、エージェント信頼性の数値が意外と面白い

Reddit r/artificial / 2026/5/29

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

「Step 3.7 Flash」のオープンウェイトが最近公開されたとされ、特にエージェントの信頼性が難易度を通じて高い点が強調されています。
tau2-benchで全難易度区分にわたり98%という数値が報告されており、従来の「簡単な問題では強いが難しい局面で落ちる」という傾向と対照的だと述べられています。
重要な論点として、多段ステップのエージェント作業では途中（例：4/6ステップ）で挙動がずれることが深刻なデバッグ地獄になり得るため、安定性が重視されるとしています。
数値としてはToolathlon（49.5）やGDPval（45.8）など“生の能力”は中程度で、最前線の性能競争というより信頼性重視の設計だと位置づけられています。
198BのスパースMoE（アクティブ11B）、400 TPS、256Kコンテキスト、Apache 2.0ライセンス、M4 MaxおよびDGX Sparkでのローカル実行に対応すると説明されています。

この記事を今日読んだ。いくつか、クレイジーな数字がある。

tau2-bench の数値は、すべての難易度レベルで 98% です。これが僕を掴んだポイントで、通常こういうリリースは強めで取り組みやすいスコアを出してから、難しさの段階になると静かに死んでいくものです。これは……その（性能を）維持すると主張している。

実際に多くのベンチマークよりも重要な「マルチステップのエージェント作業」のために。6 ステップのチェーンのうちステップ 4 でズレるモデルは、SWE スコアがどう見えていようとデバッグ地獄です。

素の能力は中くらい。Toolathlon は 49.5、GDPval は 45.8。なので、これは明らかにフロンティア能力のプレイというより信頼性のプレイです。用途によってはそれで十分か、あるいは致命的な条件（ディールブレーカー）になります。

誰か実際にこれをエージェントの評価（evals）に通した人いる？それとも、僕がリリースカードを読んでいるだけなのかな。

AI Business

The Batch

日経XTECH

日経XTECH

日経XTECH