QuantCode-Bench：大規模言語モデルが実行可能なアルゴリズム取引戦略を生成できる能力を評価するためのベンチマーク

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、英語のテキスト記述からBacktrader向けの実行可能なアルゴリズム取引戦略を生成できるかを、大規模言語モデルに対して評価するための新しいベンチマーク「QuantCode-Bench」を提案する。
ベンチマークは難易度の異なる400タスクを、Reddit、TradingView、StackExchange、GitHub、合成ソースから収集して構成し、構文チェックだけでなくバックテストの実行結果、売買（トレード）の有無、LLMジャッジによる意味的整合性までを多段階パイプラインで評価する。
研究では、モデルの比較を「シングルターン（最初の試行で正しく動作する必要がある）」と「エージェンティック・マルチターン（反復的なフィードバックを受けて誤りを修復できる）」の2条件で行う。
分析の結果、主な課題はコードの文法（構文）に起因するのではなく、取引ロジックの正しい実運用、専門的なAPIの適切な利用、自然言語のタスク記述との意味の一致にあると示される。
著者らは、取引戦略生成は、自然言語記述・金融ロジック・実装された行動の整合だけでなく、過去データ上での挙動も含めて成功が決まる、独自のドメイン特化コード生成問題だと結論づけている。