FinTradeBench: LLM向け金融推論ベンチマーク

arXiv cs.CL / 2026/3/20

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

FinTradeBenchは、企業のファンダメンタル情報と取引シグナルを組み込み、10年間にわたる1,400問のNASDAQ-100質問を横断して、LLMの金融推論のベンチマークを提案します。
質問をファンダメンタルズ重視・取引シグナル重視・ハイブリッドの3カテゴリに分け、クロスシグナル推論を評価します。
著者らは、シード問題、複数モデルの回答、自己フィルタリング、数値監査、そして人間とLLMのジャッジの整合性を用いた“キャリブレーション-スケーリング”の枠組みを採用しています。
14種のLLMの評価では、リトリーバル拡張の設定が算術・テキストの基礎推論を改善する一方で、取引シグナル推論には限られた効果しかなく、数値・時系列理解の現状の限界を露呈します。
この研究は、金融知性の分野における今後の研究方向と、金融分野でのLLMの改善の方向性を提示します。

要旨: 実世界の金融意思決定は、規制提出書類に基づく企業の財務基礎情報と、価格ダイナミクスから算出された取引シグナルを含む異種の信号を推論する必要がある、難解な問題です。最近、Large Language Models（LLMs）の進展により、金融アナリストは金融意思決定タスクにそれらを活用し始めています。しかし、これらのモデルを評価するための既存の金融質問応答ベンチマークは主に企業のバランスシートデータに焦点を当てており、市場での企業株の取引や、それらとファンダメンタル情報との相互作用を推論する能力を評価することはほとんどありません。両方のアプローチの強みを活かすために、企業の財務基礎情報と取引シグナルを統合した、金融推論を評価するベンチマークFinTradeBenchを導入します。FinTradeBenchには、NASDAQ-100企業を対象とする過去10年間の歴史的ウィンドウに根ざした1,400問の質問が含まれています。ベンチマークは、基礎情報重視、取引シグナル重視、クロスシグナル推論を要求するハイブリッド問題を含む3つの推論カテゴリに整理されています。大規模における信頼性を確保するため、専門家のシード質問、複数モデルの応答生成、モデル内自己フィルタリング、数値監査、および人間-LLMジャッジの整合性を組み合わせた、較正-スケーリング型のフレームワークを採用します。ゼロショット・プロンプティングおよび検索強化設定の下で14のLLMを評価し、明確な性能差を確認しました。情報検索は、テキスト的な基礎情報に基づく推論を大幅に改善しますが、取引シグナル推論には限定的な利益しかもたらしません。これらの知見は、現在のLLMにおける数値推論および時系列推論の根本的な課題を浮き彫りにし、金融インテリジェンス分野の今後の研究を促します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

FinTradeBench: LLM向け金融推論ベンチマーク

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer