要旨: 大規模言語モデル(LLM)の強力な言語理解能力にもかかわらず、特に数値推論において、長く構造化された文書に対する信頼性の高い質問応答(QA)は依然として難しい。金融の年次報告書はこの困難さを象徴している。財務諸表の分析はしばしば正確な算術に依存しており、アナリストは複数の表と叙述的なテキストに散在する証拠を統合することで主要指標を導き出す。しかし、既存のベンチマークは主に単一テーブルの設定に焦点を当てているため、表をまたぐ文書レベルの数値推論は十分に調査されていない。そこで本研究では、長文コンテキストのレポートにおける単一テーブルおよびクロステーブルの金融数値推論のためのデータセットであるFinLongDocQAを導入する。FinLongDocQAに対してクローズドソースおよびオープンソースの両方のLLMを評価した結果、2つのボトルネックが明らかになった。(1) 年次報告書はしばしば129kトークンを超え、関連する表を見つけるためのコンテキスト腐敗問題を悪化させる。(2) 関連する証拠が見つかった場合でも、LLMは多段階の数値推論において誤りを起こしやすい。我々は、証拠を反復的に検索し、中間計算を行い、ラウンドごとに結果を検証する、マルチエージェント・マルチラウンドの検索強化生成(RAG)アプローチであるFinLongDocAgentを提案する。実験により、長い金融文書における信頼性の高い数値QAには、反復的な検索と検証が重要であることが示される。
金融レポートにおける単一および複数のテーブル間での文書レベル数値推論
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMは言語理解において強力である一方で、長く構造化された金融文書に対する信頼性の高い数値QAは依然として難しく、特に複数のテーブルとテキストにまたがって根拠を組み合わせる必要がある場合に課題があると主張している。
- 単一テーブルと、長いコンテキストをもつ金融の年次報告書におけるテーブル横断の文書レベル数値推論の両方を扱う新しいデータセットFinLongDocQAを提案する。
- 評価の結果、現行のLLMには2つの主要なボトルネックがあることが分かった。1つ目は、多くの年次報告書が129kトークンを超えており、コンテキストの劣化により関連テーブルの取得が難しくなる点である。2つ目は、根拠が見つかった後でも多段階の算術が誤りを起こしやすい点である。
- 信頼性を高めるため、著者らは複数ラウンドにわたって証拠を反復取得し、中間計算を実行し、複数ラウンドにわたって結果を検証するMulti-Agent・Multi-Round RAGシステムであるFinLongDocAgentを提案する。
- 実験では、反復的な取得と検証を組み合わせることで、長い金融文書における数値QAの精度を大幅に改善できることが強調されている。




