概要: 標準的な評価プロトコルは、直感に反する現象を明らかにします。5つのデータセットにまたがるベンチマーク問題のうち7.7%では、10〜100倍ものパラメータを持ちながらも、大規模言語モデルが小規模言語モデルに対して28.4パーセントポイント劣るのです。1,485問に対して31モデル(0.5B〜405Bパラメータ)を体系的に評価したところ、このメカニズムは、過剰な詳述によって誤りを生み出す、自発的なスケール依存の冗長性であることが分かりました。因果介入の実験により、これは根本的な能力の制約ではなく、修正可能なプロンプト設計の問題を反映していることが示されます。大規模モデルに簡潔な応答を生成させるように制約すると、精度は26パーセントポイント向上し、性能差は最大で3分の2まで縮小します。最も重要なのは、簡潔性の制約が、数学的推論と科学知識のベンチマークにおける性能の序列を完全に逆転させることです。大規模モデルは小規模モデルに対して7.7〜15.9パーセントポイントの優位を達成し、これは元のギャップの直接的な反転にあたります。これらの逆転は、大規模モデルがより優れた潜在能力を持つ一方で、ユニバーサルなプロンプトがそれを覆い隠していることを示しています。3つの独立した汚染(コンタミネーション)テストによって結果を検証し、さらに逆スケーリングが、全パラメータ範囲にわたって継続的に作動することを示します。データセット固有の最適スケールは0.5Bから3.0Bパラメータの範囲にあります。私たちの結果は、大規模モデルの性能を最大化するには、ユニバーサルな評価プロトコルではなく、スケールを意識したプロンプト工学が必要であることを確立します。これにより、導入(デプロイ)への即時の含意が得られます。プロンプトの適応は、同時に精度を向上させ、計算コストを削減します。
簡潔さの制約が言語モデルにおける性能ヒエラルキーを反転させる
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 標準的なベンチマーク評価では逆説的な結果が示されており、大規模言語モデルは、パラメータが10〜100倍多いにもかかわらず、全体の7.7%の問題において小規模モデルより28.4ポイント劣っています。
- 研究では、この原因を大規模モデルの固有の限界ではなく、スケールに依存して自然に冗長性が増し、過度な説明によって誤りが増えることにあるとしています。
- 因果的な介入により、この問題はプロンプト設計によって是正可能であることが示されます。具体的には、大規模モデルに簡潔さの制約を追加すると精度が26ポイント向上し、性能差は最大で3分の2まで縮小します。
- 簡潔さの制約のもとでは、数学的推論および科学知識ベンチマークで性能ヒエラルキーが反転し、大規模モデルが小規模モデルに対して7.7〜15.9ポイントの優位を示します。
- 著者らは、逆スケーリングがパラメータ範囲全体(0.5B〜405B)にわたって連続的に観測されることを見出し、配備への影響として、スケールに応じたプロンプト適応により精度を高めつつ計算コストを下げられる点を強調しています。




