トランスフォーマーはその深さを適応的に使うのか？関係推論タスクからの証拠

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論の「ホップ数」で難易度を設定したマルチホップの関係推論ベンチマークを用いて、トランスフォーマーモデルがタスクの難しさに応じて深さを適応的に使えるかどうかを検証する。
適応の評価は、2つのプロービング手法により行う：予測の進化を追跡するための初期層の読み出し（ロジットレンズ）と、トークン間でタスクに関連する情報がどのように統合されるかを測る因果パッチング。
結果は、事前学習済みモデルにおいて適応的な深さ挙動は限定的であることを示す。すなわち、より簡単なタスクは少ない層で解ける可能性がある一方、より長い推論の鎖では一般にトークン間統合のためにより多くの層が必要になる。
タスクに対して微調整したモデルでは、適応的な深さの証拠がより明確で一貫して現れ、さらにその効果は、汎用の言語モデル能力を保持しない、より緩い微調整の設定で強くなる。
これらの知見は、見かけ上の深さ適応が学習レジームに依存し、微調整が特定の推論タスクに向けて計算を形作るときにより顕著になりうることを示唆している。