言語モデルにおける安定した金融推論のための認知的ファインチューニング――エキスパートのように取引を学ぶ

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、LLMを自律型トレーディング・エージェントとして用いた場合に、金融意思決定が特定の市場パターンを超えて一般化できるか、また根拠データ（ground truth）のないノイズの多い環境でどう学習・評価すべきかを扱っています。
そのために、古典的な教科書と過去の市場から作成した厳選MCQ（多肢選択）データセットを中核とする、学習・評価のための構造化フレームワークを提案し、AIコミティによる検証や、ショートカット学習を抑えるための推論トレース付与・拡張を行います。
単体のMCQでの成績が実取引へ一般化するかを検証するため、テストセット評価に加えて、MCQベースの時系列トレーディング・シミュレーションを組み合わせた二段階プロトコルを導入しています。
複数の市場レジームにわたる広範な評価の結果、提案フレームワークで学習したオープンモデルは、時間経過に沿って競争力のあるリスク意識の高い行動を示し、オープンソースのベースラインを上回りつつ、小規模でも最先端モデルに近づくことが示されました。
データセットと評価フレームワークは、金融領域でのLLMベース推論の学習・評価に関するさらなる研究を支援するために公開されています。

要旨: 大規模言語モデル（LLM）を自律的なトレーディング・エージェントとして運用する最近の事例は、金融における意思決定能力が、特定の市場パターンを超えてどの程度一般化するのか、また、真の正解（ground truth）が存在しないノイズの多い市場でそれをどのように訓練し、評価すべきかという問いを提起しています。本論文では、そうしたモデルを訓練および評価するための構造化された枠組みを提案します。提案手法の中核は、古典的な教科書と歴史的な市場から導出した、厳選された多肢選択式（MCQ）問題データセットです。これはAI委員会によって検証され、構造化された推論の痕跡（reasoning traces）によって強化され、ショートカット学習を抑えるように拡張されています。孤立したMCQにおける性能が現実のトレーディングへと一般化するかを評価するために、本研究では、テストセット評価とMCQに基づく時系列のトレーディング・シミュレーションを組み合わせた2段階プロトコルを導入します。市場レジーム（局面）の幅広い条件にわたる大規模な評価により、統計的に頑健な証拠が示されます。それによれば、提案枠組みで訓練されたオープンモデルは、時間の経過とともに競争力のある、リスクを意識した振る舞いを示し、オープンソースのベースラインを上回り、より小さなスケールでもフロンティア・モデルの性能に接近します。さらなる研究を支援するために、データセットと評価枠組みを公開します。