構造化された思考のチェーンと微調整SLMによる長文献QA

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、散在する根拠を表、グラフ、または整合したチャンクのような構造化され監査可能な出力に統合することで、長文書の質問応答（QA）を行うためのLiteCoSTを提案する。
スキーマに対応したプロンプトテンプレートであるChain-of-Structured-Thought（CoST）を導入し、より強力なLLMが段階的な推論の痕跡と、それに対応する構造化出力（正規化、整合（アラインメント）、検証・洗練を含む）を生成できるよう導く。
LiteCoSTは、LLMが生成したCoSTデータで小型言語モデル（SLM）を2段階で微調整する。まず構造の整合に対する教師あり微調整（SFT）を行い、その後、回答/形式の品質およびプロセスの一貫性に対する複数報酬でGRPOを適用する。
実験では、3B/7BのSLMにより、多分野の長文書QAでLLMと同等の精度を達成しつつ、GPT-4oおよびDeepSeek-R1（671B）に比べてレイテンシを2〜4倍低減できると主張している。
著者らは再現とさらなる検証のために、参照されたGitHubリポジトリからコードを提供している。

要旨: 大規模言語モデル（LLM）は、ドキュメント上のデータ分析に広く適用されていますが、長くノイズの多いドキュメントに対する直接的な推論は脆く、誤りが起きやすいままです。そこで本研究では、分散した根拠を構造化された出力（例えば、表、グラフ、またはチャンク）に統合して、信頼でき、検証可能なQAを支える文書質問応答（QA）を扱います。高い精度と低いレイテンシの両立を、小規模言語モデル（SLM）で実現するための二本柱の枠組み、LiteCoSTを提案します。
柱1: Chain-of-Structured-Thought（CoST）。
本稿ではCoSTテンプレートを導入します。これは、強力なLLMに対して、段階的なCoSTトレースと、その対応する構造化出力の両方を生成させる、スキーマに配慮した指示（instruction）です。このプロセスにより、最小限の構造が誘導され、エンティティ／単位が正規化され、記録が整列され、出力が直列化され、その後で検証・改良されるため、監査可能な教師信号が得られます。
柱2: SLMの微調整。
コンパクトなモデルは、LLMが生成したCoSTデータで2段階に分けて学習します。まず、構造の整合のための教師あり微調整（Supervised Fine-Tuning）を行い、続いて、回答／フォーマット品質とプロセスの一貫性に対する3つの報酬を組み込んだGroup Relative Policy Optimization（GRPO）を適用します。構造を先行させる振る舞いをSLMに蒸留することで、本手法は3B/7BのSLMを用いた複数領域の長文書QAにおいて、LLMと同等の品質を達成しつつ、GPT-4oおよびDeepSeek-R1（671B）よりも2〜4倍低いレイテンシを実現します。
コードは https://github.com/HKUSTDial/LiteCoST で公開されています。