要旨: グラフの自己教師あり学習は通常、大規模なラベルなしデータセットに依存し、計算コストを大幅に押し上げがちです。しかし、経験的な証拠が示すところによれば、これらのデータセットには相当な冗長性が含まれています。私たちの分析では、グラフを一様にサブサンプリングして50%にしても、下流タスクの性能が96%以上保持されることが明らかになりました。この冗長性を活用するために、事前学習コアセット構築のためのGraphSculptorを提案します。追加の学習時シグナルに依存する方法や、トポロジー統計だけに限定した方法とは異なり、GraphSculptorはラベル不要の解として、2つの補完的な観点からコアセットを構築します。それは、固有構造と文脈的意味です。具体的には、構造多様性は固有グラフ統計を用いて定量化し、各グラフに対する構造特徴ベクトルを得ます。一方、意味多様性は、グラフからテキストへの生成で得られた記述をエンコードするために、事前学習済み言語モデルを利用することで捉えます。GraphSculptorはこれらの信号を統一された計量空間に統合し、クラスタを意識した選択を行うことで、構造と意味の同時多様性を保持します。さらに、コアセットとフルデータでの事前学習の間の損失ギャップに関する理論的な上界を導出し、選択の定式化に理論的根拠を与えます。大規模な実験の結果、GraphSculptorはデータセットを効果的に「彫刻」できることを示しました。10%のコアセットでフルデータ性能の99.6%を達成し、事前学習時間を約90%削減できることから、データ効率の高いグラフ事前学習のためのスケーラブルな解を提供します。
GraphSculptor:グラフ自己教師あり学習のための事前学習コアセットを“成形”する
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- グラフの自己教師あり学習は計算コストが高いが、本研究ではグラフデータには冗長性があり、グラフを一様に50%サブサンプリングしても下流性能の96%以上を維持できることを示す。
- GraphSculptorはラベル不要で、固有の構造シグナルと、グラフからテキストへ生成した説明を事前学習済み言語モデルで符号化して得る文脈的セマンティクスの両方を使って事前学習用コアセットを構築する手法である。
- 構造の多様性は固有のグラフ統計から算出し、セマンティクスの多様性は生成したグラフ記述を言語モデルでエンコードすることで捉える。
- GraphSculptorは2つの視点を統合した計量空間に落とし込み、構造と意味の双方の多様性を保つためにクラスタを考慮した選択を行う。
- さらに、コアセットと全データの事前学習における損失ギャップの理論的上界を導出し、10%のコアセットで全データ性能の99.6%を達成しつつ事前学習時間を約90%削減できることを実験で示す。




