AI Navigate

グラフとトランスフォーマーを橋渡しするグラフトークン化

arXiv cs.AI / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、可逆的なグラフ直列化と Byte Pair Encoding (BPE) を組み合わせてグラフを逐次表現に変換するグラフトークン化フレームワークを提案し、トランスフォーマーがアーキテクチャを変更することなくグラフを処理できるようにします。
  • この手法は、グラフサブ構造のグローバル統計に基づいて直列化を導くことで、頻繁に出現するサブ構造が BPE によって結合されるトークンとして表現され、構造情報が保持されるようにします。
  • 実証的な結果は、14 のベンチマークデータセットで最先端の性能を示し、グラフニューラルネットワークやグラフトランスフォーマーに対して頻繁に改善をもたらします。
  • 本アプローチは、グラフ構造化データとシーケンスモデルのエコシステムを橋渡しするもので、著者らは再現性のために GitHub にコードを公開しています。

要旨:大規模事前学習済みトランスフォーマの成功は、生データ入力を離散的な記号へ変換するトークナイザーに密接に関連しています。これらのモデルをグラフ構造データへ拡張することは依然として重要な課題です。本研究では、グラフ情報を保持する可逆的なグラフ直列化と、広く採用されているトークナイザーである Byte Pair Encoding (BPE) を組み合わせて、グラフの逐次表現を生成するグラフトークナイゼーションフレームワークを導入します。構造情報をより適切に捉えるため、グラフ直列化プロセスはグラフサブ構造のグローバル統計に導かれ、頻繁に出現するサブ構造がシーケンス内により頻繁に現れ、BPE によって意味のあるトークンへ統合されることを保証します。実験的な結果は、提案されたトークナイザーを用いると、BERT のようなトランスフォーマーをアーキテクチャの変更なしにグラフベンチマークへ直接適用できることを示しています。提案されたアプローチは、14 のベンチマークデータセットで最先端の結果を達成し、グラフニューラルネットワークおよび専用のグラフトランスフォーマーを頻繁に上回ります。本研究は、グラフ構造化データとシーケンスモデルのエコシステムの間のギャップを埋めるものです。コードは以下の GitHub リンクで公開されています: \href{https://github.com/BUPT-GAMMA/Graph-Tokenization-for-Bridging-Graphs-and-Transformers}{\color{blue}here}。