SigGate-GT:シグモイド・ゲート付き注意でグラフ・トランスフォーマーの過度な平滑化を抑える

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • グラフ・トランスフォーマーは過度な平滑化や注意のエントロピー低下に悩まされるが、本研究ではその根本要因をsoftmaxの和が1となる制約による注意サンク(attention sink)挙動に結び付けて説明している。
  • SigGate-GTではGraphGPSフレームワーク内で、ヘッドごとに学習されるシグモイド・ゲートを注意出力に適用し、情報のない注意を抑制できるようにする。
  • 5つのベンチマークで評価した結果、SigGate-GTはZINCで従来最高性能に並び、ogbg-molhivでは新たなSOTA(82.47% ROC-AUC)を達成し、すべてのデータセットでGraphGPSより統計的に有意な改善(p < 0.05)を示した。
  • アブレーションでは、ゲーティングにより過度な平滑化が30%低減され、注意エントロピーが増え、さらに広い学習率範囲で学習が安定化する一方、OGB上での追加パラメータは約1%にとどまることが分かった。

概要: グラフ・トランスフォーマーは、分子および長距離推論タスクにおいて強力な結果を達成する一方で、過剰平滑化(深さに伴うノード表現の漸進的な崩壊)と注意エントロピーの劣化に悩まされています。これらの病理が、大規模言語モデルにおける注意シンク(attention sink)と同じ根本原因を共有していることを観察します。すなわち、softmax注意の「和が1になる」という制約は、たとえ有益な信号が存在しない場合でも、すべてのノードに対してどこかを必ず注意(attend)させてしまいます。大規模言語モデルにおいて要素ごとのシグモイド・ゲーティングが注意シンクを除去することを示した最近の知見に動機づけられ、GraphGPSフレームワーク内で注意出力に対して、学習されたヘッドごとのシグモイド・ゲートを適用するグラフ・トランスフォーマーSigGate-GTを提案します。各ゲートは活性をゼロへと抑制でき、ヘッドが有益でない接続を選択的に沈黙させることを可能にします。5つの標準ベンチマークにおいて、SigGate-GTはZINC(0.059 MAE)で従来の最良記録と同等であり、ogbg-molhiv(82.47% ROC-AUC)では新たな最先端を達成します。さらに、5つのすべてのデータセットでGraphGPSに対する統計的に有意な改善を示します(p < 0.05)。アブレーションにより、ゲーティングは過剰平滑化を30%低減する(4〜16層における平均相対MADの改善)こと、注意エントロピーを増加させること、そして学習率レンジの10 imesにわたって学習を安定化することが示されます。加えて、OGBにおけるパラメータ増分は約1%です。