概要: 大規模言語モデル(LLM)は、強化学習(RL)で動作するトレーディング・エージェントを改善するための連続的な数値特徴を生成できるのでしょうか?本研究では、凍結したLLMをステートレスな特徴抽出器として用いるモジュール式のパイプラインを構築し、非構造化された日次ニュースおよび提出書類を、下流のPPOエージェントが消費する固定次元のベクトルへと変換します。抽出プロンプトを離散的なハイパーパラメータとして扱い、NLP損失ではなく、予測リターンと実現リターンの間のスピアマン順位相関である情報係数(Information Coefficient)に直接チューニングする、自動化されたプロンプト最適化ループを導入します。最適化されたプロンプトは、本当に予測力を持つ特徴を見いだします(保持データ上でICが0.15を超える)。しかし、この妥当な中間表現は、自動的に下流タスクの性能へと結びつきません。マクロ経済ショックによって生じる分布シフトの間、LLM由来の特徴はノイズを加え、拡張されたエージェントは価格のみのベースラインを下回ります。より落ち着いたテスト環境ではエージェントは回復しますが、マクロ経済の状態変数が政策改善の最も堅牢な駆動要因であり続けます。本研究の発見は、特徴レベルでの妥当性と、政策レベルでの頑健性の間にギャップがあることを示しており、分布シフト下での転移学習に関して知られている課題と並行しています。
有効な信号が失敗する瞬間:LLMの機能とRL取引ポリシーの間にあるレジーム境界
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、凍結したLLMが日次のニュース/届出情報を固定次元の数値特徴へ変換し、それをPPO強化学習の取引エージェントへ入力するパイプラインを提案する。
- 自動化されたプロンプト最適化ループを用い、標準的なNLP損失ではなく、Information Coefficient(スピアマン順位相関)に対して抽出プロンプトを離散的なハイパーパラメータとして調整する。
- 最適化されたプロンプトは、保持データでICが0.15を超えるなど、真に予測力のある特徴をもたらし得るが、マクロ経済ショックに起因する分布シフトの下では、それらの特徴が取引パフォーマンスの改善につながらないことがある。
- 強いストレス下のレジームでは、LLM由来の特徴がノイズとなり、特徴を追加したエージェントは価格のみのベースラインを下回る。ただし、落ち着いた期間にはパフォーマンスが回復する。
- 本研究は、分布シフト下における「特徴レベルでの妥当性」と「ポリシーレベルでの頑健性」の間にあるギャップを強調し、改善の最も頑健な要因としてマクロ経済の状態変数が残ることを示す。



