Abstract
大規模言語モデル(LLM)は、テキスト属性グラフ(TAG)において、テキスト上のノード特徴に対する優れた意味理解能力により、強い性能を示してきました。しかし、ラベル付きノードが深刻に制限されており希少である、低リソース設定における予測器としての有効性は、依然として制約されています。というのも、LLMの微調整には通常十分なラベル付きデータが必要であり、特にTAGが複雑な構造パターンを示す場合にはその傾向が強いためです。本論文は、本質的に次の2つの重要な課題に取り組みます:(i)LLMのためのTAGにおいて信頼できる疑似ラベルを生成し、選択することが難しいこと、そして(ii)疑似ラベルでLLMを微調整する際に生じうるラベルノイズを低減する必要があることです。これらの課題に対抗するために、Graph Neural Networks(GNN)の構造的帰納バイアスを取り入れることで、TAGにおける少数ショット半教師あり学習に対してLLMの力を解放できる新しい枠組み、GNN-as-Judgeを提案します。具体的には、GNN-as-Judgeは協調的な疑似ラベル付け戦略を導入し、まずラベル付きノードから最も影響を受けた未ラベルノードを特定し、その後、LLMとGNNの間における一致と不一致のパターンの両方を活用して信頼できるラベルを生成します。さらに、情報量の多い疑似ラベルから知識を蒸留できるとともに、潜在的なラベルノイズを抑えることが可能な、弱教師ありのLLM微調整アルゴリズムも開発します。複数のTAGデータセットでの実験により、GNN-as-Judgeは既存手法を大幅に上回ることが示されました。特に、ラベル付きデータが乏しい低リソース環境において、その優位性は顕著です。