要旨: 多段のシンボリック推論は、堅牢な金融分析に不可欠であるが、現在のベンチマークはこの能力をほとんど見過ごしている。FinQA や ConvFinQA のような既存データセットは最終的な数値回答を重視する一方で、透明性と検証のために必要な中間の推論手順を軽視している。このギャップを埋めるために、本研究では金融における検証可能な Chain-of-Thought(思考の鎖)評価のために特化して設計された最初のベンチマークである FinChain を導入する。FinChain は 12 の金融領域にまたがる 58 のトピックを対象とし、各トピックはパラメータ化されたシンボリック・テンプレートで表現される。これらは実行可能な Python コードを備えており、完全に機械検証可能な推論と、スケーラブルで汚染のないデータ生成を可能にする。推論能力を評価するために、我々は最終回答の正しさと、ステップ単位の推論の一貫性を同時に評価する動的アラインメント指標である CHAINEVAL を提案する。我々が 26 の主要な LLM を評価した結果、先端的な LLM であってもシンボリックな金融推論には明確な限界があることが明らかになった。一方で、領域適応と数学強化による微調整を行ったモデルは、このギャップを大幅に縮小できる。全体として FinChain は、多段の金融推論における持続的な弱点を明らかにし、信頼でき、解釈可能で、検証可能な金融 AI を開発するための基盤を提供する。本プロジェクトは https://github.com/mbzuai-nlp/finchain.git で公開されている。
FinChain:検証可能なチェーン・オブ・ソート(CoT)による財務推論のための記号ベンチマーク
arXiv cs.CL / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文では、金融における多段階の分析で「検証可能なチェーン・オブ・ソート(CoT)」推論を評価するための新ベンチマークFinChainを提案し、従来データセットが主に最終の数値解を扱って途中の推論を軽視していた点に対処します。
- FinChainは12の金融領域で58のトピックをカバーし、パラメータ化された記号テンプレートと実行可能なPythonコードを組み合わせることで、機械的に検証できる推論と、汚染のないデータ生成を実現します。
- 著者らは、最終解の正しさと手順ごとの推論整合性を同時に評価する動的アラインメント指標CHAINEVALを提案します。
- 26の主要LLMを対象にした実験では、最先端モデルでも記号的な金融推論に明確な限界がある一方、ドメイン適応や数学強化の微調整モデルはギャップを大きく縮められることが示されます。
- この公開により、中間推論を透明化しテスト可能にすることで、信頼でき・解釈可能で・検証可能な金融AIの開発を後押しすることを目指しています。




