要旨: 多くの逐次意思決定問題は階層的な構造を示します。そこでは、高レベルの意味的選択が下流の行動を制約し、フィードバックは遅延し、曖昧になります。このような状況での学習は、クレジット割当(credit assignment)の難しさにより困難です。性能の低下は、誤った抽象化、準最適な実行、またはそれらの相互作用によって生じ得ます。本研究では、この課題をペアトレーディングを通して検討します。ペアトレーディングは、資産ペアの選定のための長期的な意味推論と、部分観測のもとでの短期的な実行とを自然に組み合わせる領域です。私たちはペアトレーディングを階層強化学習問題として定式化し、高レベル方策と低レベル方策の両方を大規模言語モデル(LLM)によってパラメータ化し、プロンプトの更新のみを通じて最適化する言語駆動型の最適化フレームワークを提案します。提案手法では、事前学習済みのLLMを階層的な方策として用い、勾配に基づく微調整(fine-tuning)を行わずに、軌跡およびエピソードレベルのテキストによるフィードバックを利用して、抽象化と実行を適応させます。抽象化の選択を実行から明示的に分離することで、このフレームワークは階層レベル間の非定常性を低減し、遅延したフィードバック下での的を絞った適応を可能にします。実世界の市場データに対する実験では、従来手法およびLLMベースのベースラインに対して一貫した改善が示され、言語駆動型階層強化学習の有効性が実証されます。
Moira:ペアトレードのための言語駆動型階層強化学習
arXiv cs.AI / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ペア選定(高レベルの意味的判断)が実行(低レベルの行動)を制約する、ペアトレード向けの言語駆動型階層強化学習フレームワーク「Moira」を提案します。
- ペアトレードを、遅延し曖昧なフィードバックのもとでの階層RL問題として定式化し、抽象化と実行の間にまたがるクレジット割当の難しさに取り組みます。
- 高レベル・低レベルの双方のポリシーはLLM(大規模言語モデル)でパラメータ化され、勾配ベースの微調整ではなくプロンプト更新のみで最適化します。
- 抽象化の選択と実行を明確に分離することで、階層間の非定常性を抑え、遅延報酬下での的を絞った適応を可能にします。
- 実市場データでの実験では、従来手法およびLLMベースのベースラインより一貫して改善が見られ、言語駆動型階層RLの有効性が示されています。




