$pi^2$：構造に由来する推論データが、大規模言語モデルの長文推論能力を向上させる

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、構造化された情報源から推論データを作り込むことで、LLMの長文推論を改善するためのデータセットおよび学習パイプライン「pi^2」を提案する。
pi^2は、Wikipediaから表を抽出して拡張し、それをもとに多段（multi-hop）の分析的QAペアを構築する。さらに、回答が自動的に決定され、デュアルパスのコード実行によって検証される質問を生成する。
生成された学習例は、段階的な構造化推論トレースを、現実的なWeb検索コンテキスト下での解答へと逆翻訳することで作成される。
pi^2を用いた gpt-oss-20b および Qwen3-4B-Instruct-2507 の教師あり微調整により、複数の長文推論ベンチマークで一貫した改善が得られる（それぞれ平均 +4.3%、+2.7%）。
本データセットは自己蒸留にも対応しており、gpt-oss-20b は自己の平均性能をさらに +4.4% 改善する。著者らは、指定されたGitHubリンクにてコード／データ／モデルをオープンソースとして公開している。

要旨: 我々は、大規模言語モデル（LLM）における長文コンテキスト推論の改善のために、最初の構造化データから推論データをキュレーションするパイプラインを研究する。我々のアプローチ、 $pi^2$ は、厳密なQA（質問応答）キュレーションによって高品質な推論データを構築する：1）Wikipediaから表を抽出し展開すること、2）収集した表と関連するコンテキストから、現実的で多段（multi-hop）な分析的推論質問を生成し、その解答はデュアルパスのコード実行によって自動的に決定され検証されること、そして3）現実的なウェブ検索コンテキストを与えたもとで、QAペアの解答として、段階的な構造化推論トレースを逆翻訳（バックトランスレート）すること。 $pi^2$ に対する\textsc{\small{gpt-oss-20b}}および\textsc{\small{Qwen3-4B-Instruct-2507}}による教師あり微調整は、4つの長文コンテキスト推論ベンチマークおよび我々の同様の\textsc{\small{ $\u007fpi^2$ -Bench}}において一貫した改善をもたらし、それぞれ平均の絶対精度向上が+4.3%および+2.7%となる。特筆すべきは、本データセットが自己蒸留（self-distillation）を可能にする点であり、\textsc{\small{gpt-oss-20b}}は自身の推論トレースによって平均性能を+4.4%まで改善し、\textsc{\small{ $\u007fpi^2$ }}の有用性を示す。コード、データ、モデルは https://github.com/vt-pi-squared/pi-squared でオープンソースとして公開している。

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

Dev.to

Geminiが素晴らしくても、GoogleはAIファースト企業ではない

Reddit r/artificial

$pi^2$：構造に由来する推論データが、大規模言語モデルの長文推論能力を向上させる

要点

関連記事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

コンテキストウィンドウが（ばかげるほど）大きくなっている――それは良いことだ

Geminiが素晴らしくても、GoogleはAIファースト企業ではない

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer