FinMCP-Bench：モデル・コンテキスト・プロトコルに基づく実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文では、金融ツール／モデル・コンテキスト・プロトコル（MCP）によるツール呼び出しを用いて、実世界の金融課題に対するLLMエージェントを評価する新しいベンチマーク「FinMCP-Bench」を提案する。
ベンチマークは、10のシナリオと33のサブシナリオにまたがる計613件のサンプルで構成され、多様性と真正性のバランスを取るために、実データと合成クエリを混在させている。
FinMCP-Benchは、65件の実在する金融MCPを用いてモデルをテストし、単一ツール、複数ツール、多ターンといった複雑性モードをサポートする。
著者らは幅広い主要LLMを評価し、ツール呼び出しの正確性に焦点を当てた指標と、推論性能に関する指標を導入する。
全体として、このベンチマークは、MCPに基づくツール利用を前提とした金融LLMエージェントの研究開発を前進させるための、標準化された実用的なテストベッドとして位置づけられている。

概要: 本論文は、金融モデルコンテキストプロトコルのツール呼び出しによって、現実世界の金融問題を解く際の大規模言語モデル（LLM）を評価するための新しいベンチマークである\textbf{FinMCP-Bench}を紹介する。FinMCP-Benchには、10の主要シナリオと33のサブシナリオにまたがる613件のサンプルが含まれ、ユーザークエリには現実のものと合成のものの両方を用いることで、多様性と真正性を保証している。65の実在する金融MCPと3種類のサンプル（単一ツール、複数ツール、マルチターン）を組み込むことで、タスクの複雑性の異なる段階にわたってモデルを評価できる。本ベンチマークを用いて、主要なさまざまなLLMを体系的に評価し、ツール呼び出しの精度と推論能力を明示的に測定する指標を提案する。FinMCP-Benchは、金融LLMエージェントの研究を前進させるための、標準化された実用的かつ挑戦的なテストベッドを提供する。