見えないものを見る:象徴的推論におけるトランスフォーマの一般化能力について

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、デコーダのみのトランスフォーマモデルが、インコンテキストでの出題に基づく命題論理の推論問題など、抽象的な記号推論タスクで一般化できる能力を調査している。
  • 先行研究で見られた、学習時に一度も観測されていない変数名を含む問題での失敗について、「表現の崩壊(representational collapse)」として理論・実験の両面から、未見トークンのアンベディング(最終層の重み)が学習中にほぼ同じベクトルへ収束することを示す。
  • この崩壊によりモデルが複数の未見変数を区別しにくくなり、トークンの(アン)ベディングを定期的にリセットする「active forgetting」の有効性を、機構的な観点から説明できるとしている(特に埋め込みとアンベディングのパラメータ共有がある場合)。
  • 著者らは、コピーを容易にする小さなアーキテクチャ変更、データ多様性、(アン)ベディングの凍結やリセットといった手法の組み合わせで、未見トークンへの一般化を改善し、統制した命題論理推論の実験群で裏付けている。
  • さらに、Gemma 3ファミリーのオープンウェイトモデルでも同様の(アン)ベディング崩壊の兆候が観測され、下流タスクの微調整用途において、未使用として予約された99トークンの相関した埋め込みが初期化として不利になり得ることを報告している。