グラフトランスフォーマーに対するk最大内積注意とGraphGPSの表現力

arXiv cs.LG / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クエリごとにキーとなるノードをtop-kで選択することで、大規模グラフにおける全対全(all-to-all)注意の二次的な計算コストを回避する、グラフトランスフォーマー向けのk最大内積(k-MIP)注意を提案する。
  • top-kの疎化(sparsification)と、記号行列(symbolic matrices)を用いた注意スコア計算を組み合わせることで、k-MIP注意は線形のメモリ計算量を実現し、全対全注意に対して最大約10倍の高速化を報告している。
  • この方法により、単一のNVIDIA A100 GPU上で50万ノード超のグラフを処理しつつ、複数のベンチマークで強い経験的性能を維持できる。
  • 著者らは理論的保証を示しており、k-MIPトランスフォーマーは任意の精度で任意のフル注意(full-attention)トランスフォーマーを近似できる、すなわち(研究された意味において)表現力を低下させない。
  • 本論文では、この注意を備えたGraphGPSフレームワークの表現能力も分析し、S-SEG-WLテストを通じたグラフの識別能力との関係づけを行い、さらに複数のデータセットで実験的に検証する。

Abstract

グラフ・トランスフォーマーは、オーバースクワッシングや長距離依存のモデリングが難しいといった従来のグラフニューラルネットワークの限界を克服するうえで有望であることが示されてきました。しかし、大規模グラフへの適用は、すべて対すべて(all-to-all)注意機構による二次的なメモリおよび計算複雑性によって妨げられています。線形化された注意や、注意のパターンを制限するような代替案が提案されているものの、これらはしばしば性能を低下させたり、表現力を制限したりします。効率と有効性のより良い両立を図るために、グラフ・トランスフォーマーのためのk最大内積(k-Maximum Inner Product: k-MIP)注意を提案します。k-MIP注意は、トップk演算によって、クエリごとに最も関連性の高いキー・ノードを選択し、疎でありながら柔軟な注意パターンを得ます。さらに、記号行列に基づく注意スコアの計算と組み合わせることで、メモリの計算量を線形にし、すべて対すべての注意と比較して最大で1桁(オーダー)の実用的な高速化を実現します。これにより、単一のA100 GPUで50万ノードを超えるグラフの処理が可能になります。加えて、k-MIP注意がグラフ・トランスフォーマーの表現力を損なわないことを示す理論的分析を行い、具体的には、k-MIPトランスフォーマーが任意の精度で任意のフル注意(full-attention)トランスフォーマーを近似できることを証明します。さらに、我々の注意機構を組み込むGraphGPSフレームワークの表現力を分析し、S-SEG-WLテストに基づいてそのグラフ識別能力の上限を確立します。最後に、Long Range Graph Benchmark、City-Networksベンチマーク、ならびに2つのカスタムな大規模インダクティブ点群データセットにおいて、我々のアプローチを検証し、スケーラブルなグラフ・トランスフォーマーの中で一貫して上位の成績を収めることを示します。