行動すべきタイミングを学ぶ:予測的な時間構造を備えた間隔対応型強化学習
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、固定のタイマーや生物学に着想を得たタイマーに頼るのではなく、経験からエージェントの「認知ティック」の間の最適な時間間隔を学習する、間隔対応型強化学習フレームワークを提案する。
- 制御方策に、サンプリングした未来の平均のペアごとのポアンカレ距離から計算される予測的な双曲線の「曲率/広がり(curvature/spread)信号」を補助的に加える。この信号は、不確実性が高い場合により早い行動を引き起こすために広がりを高くする。
- 著者らは、選択した待機時間に対する非効率を罰する間隔対応型の報酬を提案し、結果(アウトカム)だけに基づく素朴なタイミング報酬に共通するクレジット割当の問題に対処する。
- さらに、双曲幾何に基づく空間軌跡の発散に関する信号を追加する、共同の時空間埋め込み(ATCPG-ST)を提示し、状態のみの変種を超えてタイミング判断を改善する。
- 実験結果として、効率の大幅な向上が報告されている。具体的には、双曲線の広がり(kappa)を1.88から3.37へ引き上げ、固定間隔のベースラインに対して最大22.8%の効率を達成し、さらに空間位置情報を追加することで追加の5.8%を得た。
