行動すべきタイミングを学ぶ:予測的な時間構造を備えた間隔対応型強化学習

arXiv cs.LG / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、固定のタイマーや生物学に着想を得たタイマーに頼るのではなく、経験からエージェントの「認知ティック」の間の最適な時間間隔を学習する、間隔対応型強化学習フレームワークを提案する。
  • 制御方策に、サンプリングした未来の平均のペアごとのポアンカレ距離から計算される予測的な双曲線の「曲率/広がり(curvature/spread)信号」を補助的に加える。この信号は、不確実性が高い場合により早い行動を引き起こすために広がりを高くする。
  • 著者らは、選択した待機時間に対する非効率を罰する間隔対応型の報酬を提案し、結果(アウトカム)だけに基づく素朴なタイミング報酬に共通するクレジット割当の問題に対処する。
  • さらに、双曲幾何に基づく空間軌跡の発散に関する信号を追加する、共同の時空間埋め込み(ATCPG-ST)を提示し、状態のみの変種を超えてタイミング判断を改善する。
  • 実験結果として、効率の大幅な向上が報告されている。具体的には、双曲線の広がり(kappa)を1.88から3.37へ引き上げ、固定間隔のベースラインに対して最大22.8%の効率を達成し、さらに空間位置情報を追加することで追加の5.8%を得た。

Abstract

連続環境で動作する自律エージェントは、何をするかだけでなく、いつ行動するかも決めなければなりません。本研究では、経験から認知ティック(cognitive ticks)の最適な間隔を学習する、軽量な適応的時間制御システムを導入します。これにより、場当たり的な生物学的着想のタイマーを、原理に基づく学習済み方策に置き換えます。この方策の状態は、双曲幾何に由来する予測的な双曲スプレッド信号(「曲率信号」の略記)で拡張されます。具体的には、ポアンカレ球に埋め込まれた n 個のサンプル未来のうち、対(pairwise)のポアンカレ距離の平均です。スプレッドが大きいことは分岐した、不確実な未来を示し、エージェントにより早い行動を促します。スプレッドが小さいことは予測可能性を示し、より長い休止間隔を許容します。さらに、選択した待機時間に対する非効率を明示的に罰する、間隔に着目した報酬(interval-aware reward)を提案します。これは、タイミング問題における素朴な結果ベース報酬の系統的なクレジット割当失敗を修正するものです。加えて、双空間・時間埋め込みの統合(ATCPG-ST)を導入します。これは、ポアンカレ球内で状態と位置の射影をそれぞれ独立に正規化して連結することで構成されます。空間軌道の発散は、状態のみの変種(ATCPG-SO)では利用できない独立したタイミング信号を与えます。この拡張により、平均双曲スプレッド(kappa)が 1.88 から 3.37 に上昇し、さらに状態のみのベースラインに対して 5.8 パーセントの効率向上が得られます。5 つのランダムシードにわたるアブレーション実験により、(i) 学習が主要な効率要因であること(学習なしに対して 54.8 パーセント)、(ii) 双曲スプレッドが有意な補完的効果をもたらすこと(幾何を用いない制御に対して 26.2 パーセント)、(iii) 組み合わせたシステムが固定間隔ベースラインに対して 22.8 パーセントの効率を達成していること、(iv) スプレッド埋め込みへの空間位置情報の追加によりさらに 5.8 パーセントが得られること、が示されました。