FrontierFinance: 現実世界の金融タスクを対象とした長期ホライズンのコンピュータ利用ベンチマーク

arXiv cs.CL / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、短い合成タスクではなく、現実世界の専門的な金融モデリング作業プロセスに対してLLMを評価するための、長期ホライズン型ベンチマーク「FrontierFinance」を提案する。
  • FrontierFinanceは、5つの中核となる金融モデルにまたがる25の複雑なタスクを扱い、各タスクが平均して18時間超の熟練した人間の作業を要することから、実務に即した専門性をより反映することを意図している。
  • 本ベンチマークは金融の専門家と共同で開発されており、構造化された評価のための詳細なルーブリックを含む。さらに、人間の専門家がタスクを定義し、モデルの出力を採点し、また人間ベースラインを作成する。
  • 結果は、人間の専門家がより高い平均スコアを達成し、現時点の最先端システムよりも「クライアント提出に適した」出力を生成しやすいことを示しており、実タスクにおける現在の限界が浮き彫りになる。
  • 本研究は、AIによる労働代替のリスクが高い領域において、性能を追跡するための測定可能な枠組みを提供することで、LLM導入における説明責任(accountability)のギャップに対処することを目指す。

要旨: AI主導の労働移行(職務の代替)が、知識集約的な産業において深刻化するにつれ、既存のベンチマークは、実務における専門職としての実力を規定するタスクに対する性能を測定できていません。特にファイナンスは、AIへのエクスポージャー(リスク)が高い領域として特定されていますが、現実世界での進展を追跡するための堅牢なベンチマークが欠けています。このギャップは、現在の大規模言語モデル(LLM)導入において明確な説明責任(アカウンタビリティ)の仕組みが存在しないことによってさらに拡大しています。これに対処するため、私たちはFrontierFinanceを導入します。これは、5つの中核となるファイナンスモデルにまたがる25の複雑な金融モデリング課題から成る長期(ロングホライゾン)のベンチマークで、各課題の完了に平均して18時間超の熟練した人間の労働を要します。金融の専門家とともに開発したこのベンチマークは、業界標準の金融モデリングのワークフローを反映しており、構造化された評価のための詳細なルーブリックと組み合わせられています。私たちは人間の専門家を起用し、課題の定義、ルーブリックの作成、LLMの採点、そして課題そのものの実行(人間ベースライン)を行います。さらに、私たちの人間の専門家は平均でより高いスコアを得るだけでなく、現行の最先端システムよりも、クライアント提出に適したアウトプットを提供する可能性が高いことを示します。