FinToolSyn: A forward synthesis Framework for Financial Tool-Use Dialogue Data with Dynamic Tool Retrieval

arXiv cs.CL / 3/26/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • FinToolSynは、金融領域におけるLLMのツール利用対話データを生成するための「フォワードシンセシス」フレームワークとして提案され、従来のリバースシンセシスが生む不自然さ(明示性の過剰)を抑えることを狙っています。
  • 43,066個のツールを構築し、148k件以上の対話インスタンスを生成するパイプラインを通じて、実運用で必要となる「大規模ツール空間からの動的検索(dynamic retrieval)」を模倣しています。
  • さらに、現実的な金融シナリオにおけるツール呼び出し能力を評価する専用ベンチマークを整備しています。
  • 実験では、FinToolSynで学習したモデルがツール学習で21.06%の改善を示し、金融におけるツール利用能力の基盤になると報告されています。

Abstract

Tool-use capabilities are vital for Large Language Models (LLMs) in finance, a domain characterized by massive investment targets and data-intensive inquiries. However, existing data synthesis methods typically rely on a reverse synthesis paradigm, generating user queries from pre-sampled tools. This approach inevitably introduces artificial explicitness, yielding queries that fail to capture the implicit, event-driven nature of real-world needs. Moreover, its reliance on static tool sets overlooks the dynamic retrieval process required to navigate massive tool spaces. To address these challenges, we introduce \textit{FinToolSyn}, a forward synthesis framework designed to generate high-quality financial dialogues. Progressing from persona instruction and atomic tool synthesis to dynamic retrieval dialogue generation, our pipeline constructs a repository of 43,066 tools and synthesizes over 148k dialogue instances, incorporating dynamic retrieval to emulate the noisy candidate sets typical of massive tool spaces. We also establish a dedicated benchmark to evaluate tool-calling capabilities in realistic financial scenarios. Extensive experiments demonstrate that models trained on FinToolSyn achieve a 21.06\% improvement, providing a robust foundation for tool learning in financial scenarios.