$pi^2$:構造に由来する推論データが、大規模言語モデルの長文推論能力を向上させる

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、構造化された情報源から推論データを作り込むことで、LLMの長文推論を改善するためのデータセットおよび学習パイプライン「pi^2」を提案する。
  • pi^2は、Wikipediaから表を抽出して拡張し、それをもとに多段(multi-hop)の分析的QAペアを構築する。さらに、回答が自動的に決定され、デュアルパスのコード実行によって検証される質問を生成する。
  • 生成された学習例は、段階的な構造化推論トレースを、現実的なWeb検索コンテキスト下での解答へと逆翻訳することで作成される。
  • pi^2を用いた gpt-oss-20b および Qwen3-4B-Instruct-2507 の教師あり微調整により、複数の長文推論ベンチマークで一貫した改善が得られる(それぞれ平均 +4.3%、+2.7%)。
  • 本データセットは自己蒸留にも対応しており、gpt-oss-20b は自己の平均性能をさらに +4.4% 改善する。著者らは、指定されたGitHubリンクにてコード/データ/モデルをオープンソースとして公開している。

要旨: 我々は、大規模言語モデル(LLM)における長文コンテキスト推論の改善のために、最初の構造化データから推論データをキュレーションするパイプラインを研究する。我々のアプローチ、pi^2は、厳密なQA(質問応答)キュレーションによって高品質な推論データを構築する:1)Wikipediaから表を抽出し展開すること、2)収集した表と関連するコンテキストから、現実的で多段(multi-hop)な分析的推論質問を生成し、その解答はデュアルパスのコード実行によって自動的に決定され検証されること、そして3)現実的なウェブ検索コンテキストを与えたもとで、QAペアの解答として、段階的な構造化推論トレースを逆翻訳(バックトランスレート)すること。pi^2に対する\textsc{\small{gpt-oss-20b}}および\textsc{\small{Qwen3-4B-Instruct-2507}}による教師あり微調整は、4つの長文コンテキスト推論ベンチマークおよび我々の同様の\textsc{\small{\u007fpi^2-Bench}}において一貫した改善をもたらし、それぞれ平均の絶対精度向上が+4.3%および+2.7%となる。特筆すべきは、本データセットが自己蒸留(self-distillation)を可能にする点であり、\textsc{\small{gpt-oss-20b}}は自身の推論トレースによって平均性能を+4.4%まで改善し、\textsc{\small{\u007fpi^2}}の有用性を示す。コード、データ、モデルは https://github.com/vt-pi-squared/pi-squared でオープンソースとして公開している。