要旨: 近年の研究により、ツール呼び出し能力が大規模言語モデル(LLM)に外部環境と相互作用して長期的な財務タスクを遂行させられることが示されている。既存のベンチマークは財務におけるツール呼び出しの評価を始めているものの、限られたシナリオに焦点が当たり、また呼び出し単位の指標に依存しているため、軌跡(トラジェクトリ)レベルでの推論の質を捉えきれていない。そこで本研究では、このギャップに対処するため、FinTraceというベンチマークを導入する。FinTraceは、複数の難易度レベルにまたがる34の実世界の財務タスクカテゴリを対象とした、800件の専門家による注釈付き軌跡から構成される。FinTraceは、4つの軸(行動の正しさ、実行の効率、プロセスの質、出力の質)に整理された9つの指標からなるルーブリックベースの評価プロトコルを採用しており、LLMのツール呼び出し挙動をきめ細かく評価できる。我々の13のLLMに対する評価では、最先端モデルはツール選択において強い性能を示す一方で、すべてのモデルが情報の利用と最終回答の質に苦戦しており、「適切なツールを呼び出すこと」と「それらの出力に対して効果的に推論すること」との間に重大なギャップがあることが明らかになった。診断を超えて前進するために、我々は財務ツール呼び出しにおける初の軌跡レベルの嗜好( preference )データセットであるFinTrace-Trainingを構築する。これには、ツール拡張コンテキストと嗜好ペアを含む、8,196件の厳選された軌跡が含まれる。Qwen-3.5-9Bを、教師あり微調整の後に直接嗜好最適化(DPO)を行って微調整し、FinTrace-Trainingで学習することにより中間推論指標が一貫して改善すること、さらにDPOが失敗パターンをより効果的に抑制することを示す。しかし、エンドツーエンドの回答の質は依然としてボトルネックであり、軌跡レベルでの改善が最終出力の質へまだ十分に伝播していないことを示唆している。
FinTrace:長期ホライズンの金融タスクにおけるLLMツール呼び出しを軌跡(トラジェクトリ)レベルで総合評価する
arXiv cs.AI / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- FinTraceは、長期ホライズンの金融タスクにおけるLLMツール呼び出しを軌跡(トラジェクトリ)レベルで評価する新しいベンチマークとして導入されており、既存のコール(呼び出し)レベル指標や限定されたシナリオの問題に対処する。
- このベンチマークは、34の実世界の金融タスクカテゴリにわたる800件の専門家による注釈付き軌跡を含み、行動の正確性、実行効率、プロセス品質、出力品質の4つの軸にまたがる9つの指標からなるルーブリックを用いる。
- 13のLLMを評価したところ、繰り返し見られるギャップとして、モデルはしばしば適切なツールを選べる一方で、情報の活用や高品質な最終回答の生成に苦戦することが示される。
- 診断にとどまらず、論文はFinTrace-Trainingを構築する。これは、ツール拡張コンテキスト付きの8,196軌跡からなる嗜好(プレファレンス)データセットであり、金融ツール呼び出しに対する嗜好ペアを用いる。
- Qwen-3.5-9Bに対して、教師あり微調整に加えてDPOを用いて微調整すると、中間的な推論/プロセス指標が改善し、失敗モードが減少するが、エンドツーエンドの最終回答品質は依然としてボトルネックである。



