金融アプリケーション向け 時系列拡張ジェネレーション
arXiv cs.AI / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、定量的な金融タスクに対するLLMの推論力を評価する難題に取り組み、多くのベンチマークではエージェントの本質的なクエリ解釈や計算のオーケストレーション能力を分離して検証できていないと指摘しています。
- 時系列の金融分析に特化した新しい評価手法とベンチマークを提案し、LLMエージェントが計算を検証可能な外部ツールに委譲する「ツール拡張」アプローチを用います。
- Time Series Augmented Generation(TSAG)フレームワークを使って、大規模な実証研究を行い、GPT-4o、Llama 3、Qwen2などの複数のSOTAエージェントを比較しています。
- ベンチマークは100問の金融質問で構成され、ツール選択の正確さ、忠実性、幻覚(ハルシネーション)を測定し、優れたエージェントではツール利用の精度がほぼ完璧に近く、幻覚が最小に抑えられることを示しています。
- 主な貢献として、公開される評価フレームワークと、信頼できる金融AIの研究を標準化することを目的とした実証的洞察を提示しています。




