GPT-5.4-miniは、デフォルトでより短く、簡潔な出力を生成します。素の精度は、12のタスク(1,800回の評価)にわたって69.5%から47.2%へと低下しました。公式RLMの実装でも同様に低下しました(69.7%から50.2%へ)。私たちの実装――モデルがタスクのパターンマッチングとエントロピーで全てに注意を向けるのではなく、データを照会するためにPythonを書き込む――では、72.7%から69.5%へ下がりました。アーキテクチャが、モデルにできなかった部分を吸収しました。
ちなみに:AIME 2025は80% vs 0%の素の状態です。GPT-5.2と同じパターンです。モデルは推論なしで単なる当てずっぽうを出力しますが、REPLがコードによる計算を強制します。レイテンシを下げつつ精度を上げる。
公式RLMよりトークン数を5.1倍少なくしつつ、3.2倍安価です。あらゆるモデルで動作します。
[リンク] [コメント]




