[R] GPT-5.4-miniはバニラなプロンプトでGPT-5-mini比22pp低下。誰も気づかなかったのはベンチマークがそれをテストしないから。再帰的言語モデルが解決した。

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この投稿は、GPT-5.4-miniが「バニラ」なプロンプトにおける精度で大きな後退（regression）を示しており、12のタスクにわたって69.5%から47.2%へと低下していること、そして標準的なベンチマークではこの挙動が見落とされうる可能性を述べています。
再帰的言語モデル（RLM）によるアプローチが、最小限の推論で当てずっぽうに回答するのではなく、構造化された手順（例：Pythonベースの問い合わせ）によって計算を強制することで、この問題を解消すると主張されています。
著者は、バニラ・プロンプト、公式のRLM実装、そして自身の「minRLM」実装の3つのバリアントを比較しており、後者では失われた精度の多くが回復するとされています。
この手法は、公式RLMよりも効率的（トークンが5.1×少なく、コストが3.2×低い）で、あらゆるモデルと互換性があると説明されています。
関連する例としてAIME 2025が挙げられており、バニラな挙動では報告上うまくいかない（80% vs 0%）一方で、REPL/RLMのようなセットアップでは強い性能が得られつつ、レイテンシも低減されるとされています。

GPT-5.4-miniは、デフォルトでより短く、簡潔な出力を生成します。素の精度は、12のタスク（1,800回の評価）にわたって69.5%から47.2%へと低下しました。公式RLMの実装でも同様に低下しました（69.7%から50.2%へ）。私たちの実装――モデルがタスクのパターンマッチングとエントロピーで全てに注意を向けるのではなく、データを照会するためにPythonを書き込む――では、72.7%から69.5%へ下がりました。アーキテクチャが、モデルにできなかった部分を吸収しました。

ちなみに：AIME 2025は80% vs 0%の素の状態です。GPT-5.2と同じパターンです。モデルは推論なしで単なる当てずっぽうを出力しますが、REPLがコードによる計算を強制します。レイテンシを下げつつ精度を上げる。

公式RLMよりトークン数を5.1倍少なくしつつ、3.2倍安価です。あらゆるモデルで動作します。

https://github.com/avilum/minrlm

投稿者: /u/cov_id19
[リンク] [コメント]