DTCRS: 再帰的要約のためのダイナミック・ツリー構築

arXiv cs.CL / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RAG型の再帰的要約をより効率的にし、質問のニーズにより適合させるための手法DTCRS(Dynamic Tree Construction for Recursive Summarization)を提案する。
  • DTCRSは、文書構造とクエリのセマンティクスに基づいて要約ツリーを動的に生成することで、冗長な要約ノードを削減し、さらに質問タイプの分析を含めて、ツリーが必要なとき/不要なときを判断する。
  • 著者らは、複雑な質問をサブ質問に分解し、それらの埋め込みを初期クラスタ中心として用いることで、複数ステップの根拠に基づくQAに対する要約の関連性を高める。
  • 論文では、要約ツリー構築時間の大幅な削減と、3つのQAタスクにおける顕著な性能向上を報告しており、どの質問タイプが再帰的要約の恩恵を受けるかについての分析も行っている。
  • 本研究は、適さないクエリに対して一律に再帰的要約を適用すると品質やレイテンシの問題が生じ得るため、選択的に適用するための実用的な指針を提供する。

要旨: 生成拡張(RAG)は、外部知識を組み込むことで、大規模言語モデル(LLM)の幻覚(hallucination)問題を緩和する。再帰的要約は、テキストのチャンクをクラスタリングして階層的要約ツリーを構築し、複数ステップの推論を伴う抽象的な質問に対する根拠として、文書の複数部分から情報を統合する。しかし、要約ツリーには冗長な要約ノードが大量に含まれがちであり、構築時間を増やすだけでなく、質問応答に悪影響を与える可能性もある。さらに、再帰的要約はすべての種類の質問に適しているわけではない。そこで本研究では、DTCRS(動的に要約ツリーを生成する手法)を提案する。本手法は、文書の構造とクエリの意味論に基づいて要約ツリーを動的に生成する。DTCRSは、質問タイプを分析することで要約ツリーが必要かどうかを判断する。次に質問を分解し、サブ質問の埋め込み(embeddings)を初期クラスタ中心として用いることで、冗長な要約を減らしつつ、要約と質問の間の関連性を高める。提案手法は、要約ツリーの構築時間を大幅に削減し、3つのQAタスクすべてで顕著な改善を達成する。加えて、再帰的要約が異なる質問タイプに適用可能かどうかを調査し、今後の研究に向けた有用な知見を提供する。