要旨: トランスフォーマーはAI計画タスクにおいて一貫した成功を示していないことがあり、一般化がいつ期待されるべきかという理論的理解には限界がありました。私たちは、与えられた計画が正しく解決するかどうかを検証する能力をデコーダーのみのモデルを分析することによって、このギャップに対処する重要な一歩を踏み出します。オブジェクトの数が増え、それによって実質的な入力アルファベットがテスト時に拡大する一般的な設定を分析するために、C*-RASPを導入します。これは、シーケンス長と語彙サイズの同時拡大の下でトランスフォーマーの長さ一般化保証を確立するよう設計されたC-RASPの拡張です。私たちの結果は、トランスフォーマーが長い計画を検証できることを理論的に学習できる古典的計画ドメインの大きなクラスを特定し、長さ一般化可能な解の学習可能性に著しく影響を与える構造的特性を示します。実証実験は私たちの理論を裏付けます。
プランを検証するトランスフォーマーの能力について
arXiv cs.AI / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、デコーダのみのトランスフォーマーが、与えられた計画が計画問題を解決するかどうかを検証できるかを調べ、固定入力サイズを超える一般化に取り組む。
- 彼らは C*-RASP の拡張である C*-RASP を導入し、テスト時にシーケンス長と語彙サイズの両方が増加する場合に長さ一般化の保証を提供する。
- 本研究は、トランスフォーマーが長い計画を検証することを理論的に学習できると示される古典的計画ドメインの広いクラスを特定し、長さ一般化可能な解の学習可能性に影響を与える構造的性質を強調する。
- 実証的な実験は理論を裏づけ、解析結果と計画検証タスクにおける観測された性能との整合を示している。