金融アプリケーション向け 時系列拡張ジェネレーション

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、定量的な金融タスクに対するLLMの推論力を評価する難題に取り組み、多くのベンチマークではエージェントの本質的なクエリ解釈や計算のオーケストレーション能力を分離して検証できていないと指摘しています。
  • 時系列の金融分析に特化した新しい評価手法とベンチマークを提案し、LLMエージェントが計算を検証可能な外部ツールに委譲する「ツール拡張」アプローチを用います。
  • Time Series Augmented Generation(TSAG)フレームワークを使って、大規模な実証研究を行い、GPT-4o、Llama 3、Qwen2などの複数のSOTAエージェントを比較しています。
  • ベンチマークは100問の金融質問で構成され、ツール選択の正確さ、忠実性、幻覚(ハルシネーション)を測定し、優れたエージェントではツール利用の精度がほぼ完璧に近く、幻覚が最小に抑えられることを示しています。
  • 主な貢献として、公開される評価フレームワークと、信頼できる金融AIの研究を標準化することを目的とした実証的洞察を提示しています。

Abstract

複雑で定量的な金融タスクに対する大規模言語モデル(LLM)の推論能力を評価することは、重要であり、かつ未解決の課題です。標準的なベンチマークでは、多くの場合、エージェントの中核的能力である「問いを読み解き、計算をオーケストレーションする」力を適切に切り分けられません。これに対処するため、金融の時系列分析におけるLLMエージェントの推論を厳密に測定する、新しい評価手法とベンチマークを提案します。我々は、この手法を、フレームワークであるTime Series Augmented Generation(TSAG)を用いた大規模な実証研究で適用しました。そこでは、LLMエージェントが、検証可能な外部ツールへ定量タスクを委任します。我々のベンチマークは100問の金融に関する問いからなり、複数の最先端(SOTA)エージェント(例:GPT-4o、Llama 3、Qwen2)を、ツール選択の精度、忠実性、そして幻覚(ハルシネーション)を評価する指標によって比較するために用いられます。その結果、能力の高いエージェントは、最小限の幻覚でほぼ完全なツール利用精度を達成できることが示され、ツール拡張パラダイムが裏付けられました。主要な貢献は、この評価フレームワークと、エージェント性能に関する対応する実証的知見です。これらを公開し、信頼できる金融AIに関する標準化された研究を促進します。