RecaLLM：明示的なインコンテキスト検索によって「考え込んで迷子になる」現象に対処する

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

RecaLLMは、検索と推論を明示的に結合することで長いコンテキスト入力をより効果的に活用することを目的とした推論用言語モデル群である。
本論文では、「考え込んで迷子になる（lost-in-thought）」というボトルネックを特定している。すなわち、性能を高める推論が行われることで、その後のインコンテキスト検索が難しくなるという問題であり、短い推論スパンにおいても同様に生じる。
RecaLLMは、推論と明示的なインコンテキスト検索を交互に組み込むことでこの問題に対処する。中間ステップを生成し、その後サブ問題に対する根拠（エビデンス）を取得する、という形で交互に処理する。
これは、オーバーヘッドがほぼ無視できる制約付きデコーディング手法を用い、証拠スパンをそのまま（逐語的に）コピーすることを可能にすることで、後続の生成に対する基盤（グラウンディング）を改善する。
オープンソースのLLMに対する実験により、RecaLLMはRULERおよびHELMETで強力な結果を達成し、はるかに短い（≤10Kトークン）サンプルで学習しているにもかかわらず、128Kトークンまで一貫した改善が得られることが示されている。

要旨: 長いコンテキスト情報を効果的に活用するために事後学習された推論言語モデル群であるRecaLLMを提案する。文脈内リトリーバル（コンテキストから関連する根拠を特定する）と推論は、深く結びついている。すなわち、リトリーバルは推論を支援し、一方で推論は何を取得する必要があるかをしばしば決定する。しかし、この相互作用は、依然としてほとんど研究されていない。複数のオープンソースLLMに関する予備実験では、短い推論スパンの後であっても、文脈内リトリーバルの性能が大きく低下することを観察し、これを「lost-in-thought（思考に迷う）」と呼ぶ。これは、テスト時のスケーリングにおける重要なボトルネックであり、性能を改善する推論ステップが、続く文脈内リトリーバルをより困難にすることが分かっている。この制約に対処するため、RecaLLMは推論と明示的な文脈内リトリーバルを交互に織り込み、推論と、中間の部分問題を解くために必要なコンテキスト情報の取得とを切り替える。証拠となるスパンの逐語的なコピーを可能にする、過剰なオーバーヘッドを伴わない制約付きデコーディング機構を導入し、その後の生成のグラウンディングを改善する。多様な語彙的および意味的なリトリーバル課題で学習されたRecaLLMは、長いコンテキストの2つのベンチマークであるRULERとHELMETにおいて強力な性能を達成し、ベースラインを大幅に上回る。特筆すべき点として、既存の長コンテキスト手法で用いられているものよりはるかに短い、最大10Kトークンの学習サンプルを用いて、コンテキストウィンドウ最大128Kトークンまで一貫した改善を観察する。これは、高価な長コンテキスト学習データを用いずに長いコンテキスト性能を向上させる有望な道筋を示している。