AI Navigate

Telogenesis: 目標がすべて

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、三つの認識的ギャップ(無知、驚き、新鮮さの欠如)に基づいて内部的に注意対象を生成する、目標条件付きシステム向けの新しい優先度関数を提案する。
  • 2つの環境で検証を行い、優先度関数の各構成要素が効果的な注意配分に必須であることを示した。
  • 重要な発見として、問題の指標や次元に応じて、カバレッジベースの割り当てと優先度誘導型割り当てが性能で逆転する現象を確認した。
  • 変数ごとの減衰率を自律的に学習可能であり、外部の監督なしに環境の変動性を特定して適応できる。
  • 全体として、外部の報酬なしに内部の認識的ギャップのみで、固定戦略を上回る適応的で目標志向の注意メカニズムを駆動し、潜在的な環境構造を明らかにできることを示した。

Abstract

目標条件付きシステムは目標が外部から提供されることを前提としている。我々は、注意優先度がエージェントの内部認知状態から自発的に生じうるかを問う。三つの認識的ギャップ(無知:事後分散、驚き:予測誤差、新鮮さの欠如:観測されていない変数の信頼度の時間的減衰)から観測対象を生成する優先度関数を提案する。これを二つのシステムで検証した:最小注意配分環境(2,000回の試行)とモジュラー部分観測可能世界(500回の試行)。アブレーションで各要素の必要性を示した。主な知見は指標依存の逆転現象である:全体予測誤差下ではカバレッジベースのローテーションが優位、変化検出遅延下では優先度誘導型割り当てが優位で、次元数増加に伴い有利さが単調に増す(d = -0.95, N=48でp < 10^-6)。検出遅延は注意予算の冪乗則に従い、優先度誘導型割り当ての指数はより大きい(0.55対0.40)。減衰率を変数ごとに学習可能にすると、外部監督なしに環境変動構造を自発的に回復する(t = 22.5, p < 10^-6)。我々は、外部報酬なしでも認識的ギャップのみが固定戦略を上回る適応的優先度を生成し、潜在的環境構造を回復可能であることを示した。