要約:長い文脈の取り扱いは、言語モデルにとって依然として核となる課題である。拡張された文脈ウィンドウがあっても、モデルは長い文脈全体にわたる情報を信頼性高く抽出し、推論し、活用することに失敗することがよくある。
最近の研究のように Recursive Language Models (RLM) は、推論時のプログラム的相互作用を介して長い文脈を再帰的なサブコールへと分解する、エージェント的な方法でこの課題に取り組んできた。
有望ではあるものの、RLMの成功はこれらの文脈相互作用プログラムがどのように選択されるかに大きく依存しており、それは長い間ほとんど検討されてこなかった。
本論文ではこの課題を検討し、プログラム的文脈相互作用を不確実性を考慮した自己反省で拡張するSRLMというフレームワークを提案する。
SRLMは3つの内在的シグナルを活用する:自己整合性、推論の長さ、そして言語化された自信。
これらはモデル内部の不確実性を補完的に示す指標として機能し、モデルはそれらを用いて候補となる文脈相互作用プログラムを評価・比較する。
多様なベンチマークデータセット、文脈長、バックボーンモデルにわたる広範な実験から、SRLMは一貫して最先端のベースラインを上回り、同じ時間枠内でRLMより最大22%の改善を達成する。
私たちの知見は、再帰そのものがRLMの性能の主要な推進力ではなく、単純な自己反省的なプログラム探索は自己照会や明示的な再帰機構を必要とせず、RLMに匹敵するか上回ることができる、ということを示している。
モデルのウィンドウ内にある文脈長については、再帰を伴うRLMは基礎モデルに比べて性能を低下させることが多い一方、SRLMは短い文脈と長い文脈の双方で一貫した利得をもたらす。
また、意味的に集約的な性質を持つタスクではRLMの効果が低いことも分かった。ここではヒューリスティックなプログラム探索が不十分で、より広い文脈理解が求められるが、SRLMの自己反省は意味的なシグナルを提供し、これらの状況で推論をより適切に誘導する。
不確実性に直面する再帰言語モデル: 長い文脈に対する自己反省的プログラム探索の意外な有効性
arXiv cs.AI / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SRLM は、自己整合性、推論長、そして言語化された信頼度といった不確実性を意識した自己反省信号を用い、候補の文脈相互作用プログラムを評価・選択することで、プログラマティックな文脈相互作用を補強する。
- 再帰言語モデルと比較して、同じ時間予算のもとで SRLM は最大で 22% の改善を達成し、再帰が性能の主因ではないことを示している。
- 多様なベンチマークと文脈長にわたって、SRLM は一貫した利得を生み出し、意味論的に密度の高いタスクにおいてヒューリスティックなプログラム探索を上回ることがある。
- この結果は、単純な自己反省的プログラム探索が明示的な再帰を要さず RLM に匹敵・上回る可能性を示唆しており、長大な文脈推論における再帰的推論の必須性という前提に挑戦している。




