要旨: 大規模言語モデル(LLM)は、長い推論の連鎖の中で多くの文脈内情報の断片を取り出して組み合わせる必要がある複雑なタスクを解決するために、ますます活用されるようになってきています。多くの実世界のタスクでは、タスクの複雑さが増すにつれてモデルの性能や戦略がどのように変化するのかを、正確に見積もることが難しいのが現状です。スケーラブルで検証可能な形でモデルの複雑な推論能力を評価するために、私たちはRELIC(Recognition of Languages In-Context)を導入します。これは、文脈内で提示された文法によって生成される文脈自由言語(CFL)に、与えられた文字列が属するかどうかをLLMが判断できるかを評価する枠組みです。CFL認識により、文法のサイズや文字列の長さを変えることで問題の内在的な複雑さを調整でき、さらにこの漸近的な複雑さを理想的なLLM性能の予測へと変換できます。私たちは、最先端の推論モデルでさえRELICではうまく機能しないことを見いだします。具体的には、タスクの難しさに追随して推論の計算量を適切にスケールできないだけでなく、タスクの複雑さが増すにつれて彼らが使用する推論トークン数まで減少させてしまいます。これらの計算量の低下は、推論戦略の変化を伴っていることも分かります。モデルが、アルゴリズム的な解決策を特定して実装することから、当て推量へと移行するからです。完了(フルの回答)が検査されないモデルにおいては、この現象は「困難なタスクで静かに諦める(quiet quitting)」として現れます。
RELIC:文脈中の言語の認識による複雑推論の評価
arXiv cs.CL / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文では、文脈中に提示された文法により定義される文脈自由言語(CFL)への所属を、LLMが判定できるかをスケーラブルに検証する評価フレームワーク「RELIC」を提案している。
- 文法サイズと入力文字列長を変えることでタスクの難易度を制御し、その漸近的な複雑性を「理想的な」LLM性能の予測へと結び付けている。
- 実験では、最先端の推論モデルであってもRELIC上でうまく機能せず、難しさが増しても推論計算量を適切に増やせないことが示されている。
- 計算量の低下は推論戦略の変化と連動しており、アルゴリズム的な解法から推測へと移行する(検査されない場合は「quiet quitting」になる)ことを明らかにしている。


