概要: 本論文は、金融モデルコンテキストプロトコルのツール呼び出しによって、現実世界の金融問題を解く際の大規模言語モデル(LLM)を評価するための新しいベンチマークである\textbf{FinMCP-Bench}を紹介する。FinMCP-Benchには、10の主要シナリオと33のサブシナリオにまたがる613件のサンプルが含まれ、ユーザークエリには現実のものと合成のものの両方を用いることで、多様性と真正性を保証している。65の実在する金融MCPと3種類のサンプル(単一ツール、複数ツール、マルチターン)を組み込むことで、タスクの複雑性の異なる段階にわたってモデルを評価できる。本ベンチマークを用いて、主要なさまざまなLLMを体系的に評価し、ツール呼び出しの精度と推論能力を明示的に測定する指標を提案する。FinMCP-Benchは、金融LLMエージェントの研究を前進させるための、標準化された実用的かつ挑戦的なテストベッドを提供する。
FinMCP-Bench:モデル・コンテキスト・プロトコルに基づく実世界の金融ツール利用に向けたLLMエージェントのベンチマーク
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、金融ツール/モデル・コンテキスト・プロトコル(MCP)によるツール呼び出しを用いて、実世界の金融課題に対するLLMエージェントを評価する新しいベンチマーク「FinMCP-Bench」を提案する。
- ベンチマークは、10のシナリオと33のサブシナリオにまたがる計613件のサンプルで構成され、多様性と真正性のバランスを取るために、実データと合成クエリを混在させている。
- FinMCP-Benchは、65件の実在する金融MCPを用いてモデルをテストし、単一ツール、複数ツール、多ターンといった複雑性モードをサポートする。
- 著者らは幅広い主要LLMを評価し、ツール呼び出しの正確性に焦点を当てた指標と、推論性能に関する指標を導入する。
- 全体として、このベンチマークは、MCPに基づくツール利用を前提とした金融LLMエージェントの研究開発を前進させるための、標準化された実用的なテストベッドとして位置づけられている。



