少ないほど良い:LLMの数学的推論における認知負荷と単一プロンプトの限界

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、SAIR Equational Theories Stage 1の課題を題材に、LLMによる形式的な数学的推論に対するプロンプトエンジニアリングの体系的な調査を報告しており、ガマにおける等式法則の含意判定を扱います。
  • 0〜4,878バイトの40種類以上のプロンプト変種を4つの評価分割と3つのモデル(gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B)で検証した結果、「単一プロンプトの限界」により性能が飽和することを示します。
  • gpt-oss-120bでは、精度が経験的な飽和領域(概ね60〜79%)で頭打ちになり、チートシートなしベースラインの59.75%を上回る一方で、徹底的なプロンプト設計を行っても伸びに限界があるとされます。
  • 本研究は、この限界の要因として(1) TRUEケースの数学的不決定性が有限プロンプトで表現できる内容を制限すること、(2) 複雑なルール体系がより弱いモデルの性能を大きく損なうこと、(3) プロンプト順序が注意機構と相互作用し非単調に影響しうること、の3点を挙げています。
  • 最良の提出(AN45c、2,252バイト)はhard3で79.25%の精度を達成し、TRUEリコールは95.9%、FALSEリコールは63.4%で、チートシートなしベースライン(59.75%)に対して+19.5ポイントの改善を示し、プロンプトと評価一式をGitHubで公開しています。

要旨: SAIR の等式理論 第1ステージ競技の文脈において、形式的な数学的推論のためのプロンプト・エンジニアリングを対象に、体系的な実証研究を提示します。この課題は、ある等式法則が、すべてのマグマにおいて別の等式法則を含意するかどうかを判断することを要求します。この問題は一般には判定不能ですが、有限モデル探索によって FALSE 側は判定可能です。5週間をかけて、0〜4,878バイトの範囲の40以上のプロンプト・バリアントを設計し、テストし、4つの評価分割および3つの言語モデル(gpt-oss-120b、Llama 3.3 70B、Gemma 4 31B)にわたって解析しました。
中心的な発見は、単一プロンプトにおける上限(single-prompt ceiling)です。大規模なエンジニアリング努力にもかかわらず、empirical saturation 領域(約60〜79%)において gpt-oss-120b ではハード精度が頭打ち(プラトー)し、チートシートなしのベースライン(59.75%)と比べても大きくは伸びません。この上限の背景には3つの機序を特定します。(1) TRUE 側の数学的な判定不能性により、有限のどのプロンプトでも符号化できる範囲が制限されること。(2) 複雑なルール体系が、より弱いモデルでの性能を低下させること(Llama 3.3 70B は、2KBを超えるプロンプトで TRUE のリコールが0%に崩壊します)。(3) プロンプトの順序効果が、モデルの注意(attention)と脆く、単調でない形で相互作用することです。
最良の提出(AN45c、2,252バイト)は hard3(n=400; 95% CI: [75.0%, 82.9%])で79.25%の精度を達成し、TRUE リコールは95.9%、FALSE リコールは63.4%です。これは、チートシートなしベースライン(59.75%)に対して +19.5 パーセンテージポイントの改善に相当します。すべてのプロンプト・バリアント、評価スクリプト、結果を https://github.com/israelcazares/sair-prompt-engineering で公開します