広告

[R] GPT-5.4-miniはバニラなプロンプトでGPT-5-mini比22pp低下。誰も気づかなかったのはベンチマークがそれをテストしないから。再帰的言語モデルが解決した。

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この投稿は、GPT-5.4-miniが「バニラ」なプロンプトにおける精度で大きな後退(regression)を示しており、12のタスクにわたって69.5%から47.2%へと低下していること、そして標準的なベンチマークではこの挙動が見落とされうる可能性を述べています。
  • 再帰的言語モデル(RLM)によるアプローチが、最小限の推論で当てずっぽうに回答するのではなく、構造化された手順(例:Pythonベースの問い合わせ)によって計算を強制することで、この問題を解消すると主張されています。
  • 著者は、バニラ・プロンプト、公式のRLM実装、そして自身の「minRLM」実装の3つのバリアントを比較しており、後者では失われた精度の多くが回復するとされています。
  • この手法は、公式RLMよりも効率的(トークンが5.1×少なく、コストが3.2×低い)で、あらゆるモデルと互換性があると説明されています。
  • 関連する例としてAIME 2025が挙げられており、バニラな挙動では報告上うまくいかない(80% vs 0%)一方で、REPL/RLMのようなセットアップでは強い性能が得られつつ、レイテンシも低減されるとされています。

GPT-5.4-miniは、デフォルトでより短く、簡潔な出力を生成します。素の精度は、12のタスク(1,800回の評価)にわたって69.5%から47.2%へと低下しました。公式RLMの実装でも同様に低下しました(69.7%から50.2%へ)。私たちの実装――モデルがタスクのパターンマッチングとエントロピーで全てに注意を向けるのではなく、データを照会するためにPythonを書き込む――では、72.7%から69.5%へ下がりました。アーキテクチャが、モデルにできなかった部分を吸収しました。

ちなみに:AIME 2025は80% vs 0%の素の状態です。GPT-5.2と同じパターンです。モデルは推論なしで単なる当てずっぽうを出力しますが、REPLがコードによる計算を強制します。レイテンシを下げつつ精度を上げる。

公式RLMよりトークン数を5.1倍少なくしつつ、3.2倍安価です。あらゆるモデルで動作します。

https://github.com/avilum/minrlm

投稿者: /u/cov_id19
[リンク] [コメント]

広告