LLMsにおける長文コンテキスト推論のための分解(デコンポジション)的観点

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMにおける長文コンテキスト推論の失敗が、研究者がその課題を内部構造を分析せずに全体として扱っていることに、部分的に起因していると主張する。
  • 長文コンテキスト推論を複数の原子的スキルに分解し、各スキルを切り分けて学習できるように、狙いを定めた疑似データセットを生成する。
  • 著者らは、これらの原子的スキルのスコアが、各種ベンチマークにおける総合的な長文推論の性能と強く相関することを見出す。
  • 疑似データセットに対して強化学習を用いることで、方法は原子的スキルを改善し、より良い一般的な長文コンテキスト推論結果をもたらす。
  • いくつかのベンチマークにまたがる実験では平均で7.7%の性能向上(46.3%から54.0%)が示され、このアプローチが効果的で汎用可能であることを示している。

Abstract

長文コンテキストにおける推論は、複雑な現実世界のアプリケーションにとって不可欠ですが、大規模言語モデル(LLM)にとっては依然として大きな課題です。長文コンテキスト推論の研究は急速に進展しているにもかかわらず、現在の研究の多くは、この長文コンテキスト推論タスクそれ自体の内部にある複雑さを見落としがちです。本論文では、この全体論的な見方を一歩進めて、長文コンテキスト推論を一連の基本的な「原子的(atomic)スキル」に分解し、さらにそれぞれの原子的スキルを明示的に狙った疑似データセット群を自動的に合成します。実験的な分析により、これらの原子的スキルの習熟度は、一般的な長文推論の性能と強く相関することが確認されます。この洞察に基づき、疑似データセット上で強化学習を行うことで、モデルの原子的スキルをより研ぎ澄まし、その一般的な長文コンテキスト推論能力の向上を目指します。複数のベンチマークにまたがる大規模な実験により、このアプローチの有効性が示されています。Loogle、Loong、LongBench-v2、BrowscompLong、Ruler-qa2、MRCRの各ベンチマークにおいて、強力なベースラインを平均で7.7 u%上回ります(46.3 u%から54.0 u%へ改善)。