モデルの能力が支配する：AIMO 3から学ぶ推論時最適化の教訓

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

論文では、複数回のLLM試行に対する多数決が数学的推論を改善し得る一方で、誤りが相関している場合には追加サンプルによる有効な利得が小さくなることを見出している。
「Diverse Prompt Mixer（多様なプロンプト・ミキサー）」を提案し、異なる推論戦略を異なる投票者（voters）に構造的に割り当てることで誤りの相関をデコレート（非相関化）し、この手法をAIMO 3の設定で検証する。
3モデルを使用し、23回以上の実験を行い、単一のH100 80GB上で5時間制限の下、IMOレベルの問題50問で評価したにもかかわらず、すべての介入（介入試行）はベースライン手法を上回ることに失敗する。
高温度のサンプリングではすでに十分な誤りのデコレレーションが得られるのに対し、より弱いプロンプト多様性戦略は、相関の低減よりも試行あたりの精度を悪化させる。
約17点の大きなモデル能力ギャップと、複数の推論時最適化手法を試した結果、結果を支配するのはモデルの生の能力であり、その影響は他を1桁程度上回る。