インコンテキスト強化学習のためのフリーランダム射影

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自由確率論に基づく入力マッピング手法「フリーランダム射影（Free Random Projection）」を提案し、階層的な帰納バイアスを強化学習にもたらすことを目的として設計されたランダム直交行列を生成する。
既存のインコンテキスト強化学習（in-context RL）フレームワークに対してそのまま適用できることを主張しており、階層構造を入力空間に埋め込むことで、明示的なアーキテクチャ変更を回避する。
複数環境ベンチマークでの実験では、標準的なランダム射影と比べて一貫した改善が報告されており、特に方策の一般化が向上する。
著者らは、理論および解析を提供しており、線形に解けるマルコフ決定過程に関する結果や、カーネル行列スペクトルの調査などを含め、階層的に構造化された状態空間でフリーランダム射影がより良く機能する理由を説明している。

抽象: 階層的な帰納バイアスは、明示的な双曲線的潜在表現やアーキテクチャによって示されるように、強化学習において汎化可能な方策を促進すると仮定されている。したがって、これらのバイアスをアルゴリズムから自然に創発させる、より柔軟なアプローチが望ましい。そこで我々は、自由確率論に基づく入力写像であるFree Random Projection（自由ランダム射影）を提案する。これは、階層構造が本質的に生じるように、ランダムな直交行列を構成する。自由ランダム射影は、入力空間内に階層的な組織化を符号化することで、明示的なアーキテクチャ変更を必要とせずに、既存のインコンテキスト強化学習フレームワークにシームレスに統合できる。複数環境ベンチマークにおける実験結果は、自由ランダム射影が標準のランダム射影を一貫して上回り、汎化の向上につながることを示している。さらに、線形に解けるマルコフ決定過程における分析や、カーネル・ランダム行列のスペクトルに関する調査により、自由ランダム射影の性能向上を支える理論的背景が明らかになる。これは、階層的に構造化された状態空間に対して、効果的に適応できる能力を強調している。