概要: テキスト属性付きグラフは、ノードのテキストに含まれる意味情報とトポロジカルな構造を統合し、文書分類や情報抽出などさまざまな応用において大きな価値を提供します。既存の手法では一般に、まず言語モデル(LM)を用いてテキスト内容を符号化し、その後グラフニューラルネットワーク(GNN)によって構造情報を処理します。しかし、LMベースのテキスト符号化の段階では、多くの手法が、意味的な相互作用を単に単語トークンの粒度においてのみ行うだけでなく、異なるノード間のテキストにまたがる構造的依存関係も無視しています。本研究では、トポロジ制約付き注意機構を備えたデュアル粒度テキストエンコーダであるDuConTEを提案します。本モデルは、2つの事前学習済みLMからなるカスケード型のアーキテクチャを用い、まず単語トークン粒度で意味を符号化し、次にノード粒度で符号化します。各LMにおける自己注意の計算では、ノードの接続性に基づいて注意マスク行列を動的に調整し、モデルがグラフ構造に導かれた意味的相関関係を学習できるようにします。さらに、ワードトークン埋め込みからノード表現を合成する際には、中心ノード文脈と近傍文脈のそれぞれのもとでトークンの重要度を個別に評価し、より文脈に即した意味情報の獲得を可能にします。複数のベンチマークデータセットに対する大規模な実験により、DuConTEがそれらの大半において最先端の性能を達成することが示されています。
DuConTE:トポロジー制約付き注意機構を用いたデュアル・グラニュラリティ・テキストエンコーダ(テキスト属性グラフ向け)
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ノード上のテキストの意味とグラフのトポロジーを統合する「テキスト属性グラフ」向けのデュアル・グラニュラリティ・テキストエンコーダDuConTEを提案している。
- DuConTEはカスケード構造として2つの事前学習済み言語モデルを用い、意味をまずワード(トークン)粒度、次にノード粒度でエンコードする。
- 各LMの自己注意計算では、ノードの接続関係に応じて注意マスク行列を動的に調整し、意味的な相関を構造的な依存関係に基づいて学習できるようにする。
- ノード表現の作成時には、中心ノード文脈と近傍文脈の2つの条件でトークン重要度を別々に評価し、文脈により適合した意味情報を捉える。
- 複数のベンチマーク実験の結果、DuConTEは大多数のデータセットで最先端(SOTA)の性能を達成した。




