グラフ対応の適応的ノイズ付けによる、事実性と編集感度を重視したグラフからシーケンス生成

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、DLM4Gという非自己回帰の拡散ベースのグラフからシーケンス（G2S）生成モデルを提案し、微調整した自己回帰モデルが抱えがちな「事実性の根拠」と「編集感度」の弱点に対処します。
DLM4Gは、グラフ要素とシーケンス・トークンの対応付け（アライメント）に加えて、復元（denoising）誤差に基づくトークンごとの適応的ノイズ戦略を用い、生成時にグラフ構造の保持を高めます。
入力グラフを編集した際に、生成テキストを局所的に更新できるように設計されており、編集に対する挙動の改善を狙っています。
3つのデータセットで、DLM4Gは表面形式と埋め込みベースの両方の評価指標において、同一分割で学習された拡散系の競合G2Sベースラインを一貫して上回ります。
強力なPLMおよび拡散ベースラインに対して、事実性（FGT@0.5）と編集感度（ESR）で定量的な改善を報告し、さらに分子キャプションでの実験により、テキストグラフ以外にも適用できる一般性を示しています。

要旨: グラフからシーケンスへの生成（G2S）に対する微調整済みの自己回帰モデルは、しばしば事実性の裏付け（factual grounding）と編集への感度（edit sensitivity）に課題を抱えます。これらの問題に対処するために、入力グラフに条件付けられた反復的な洗練によってテキストを生成する、非自己回帰の拡散フレームワークを提案します。これは Diffusion Language Model for Graphs（DLM4G）と呼ばれます。グラフ構成要素（エンティティ／関係）を、それに対応するシーケンストークンに整合させることで、DLM4G は適応的なノイズ付与戦略を用います。提案する戦略では、トークンごとの復元（denoising）誤差をシグナルとして、エンティティおよび関係トークンへのノイズを適応的に調整します。これにより、グラフ構造の保持が改善され、さらにグラフの編集に対して局所的な更新を可能にします。3つのデータセットで評価した結果、DLM4G は、同一の分割で学習した競合するG2S拡散ベースラインの両方の指標（表面形式ベースおよび埋め込みベース）において、一貫して上回りました。DLM4G は、最大12倍大きい（例：T5-Large）微調整済み自己回帰ベースラインも上回り、最大127倍大きいゼロショットLLM転移ベースラインと競合する性能を示します。最も強力な微調整済みPLMベースラインと比べて、DLM4G は事実性の裏付け（FGT@0.5）を +5.16% 改善し、編集への感度（ESR）を +7.9% 改善します。最良の拡散ベースラインと比較すると、FGT@0.5 で +3.75%、ESR で +23.6% の向上が得られます。さらに、分子キャプション生成に関する実験により、テキストグラフ以外への適用可能性も示し、この手法が科学的なG2S生成に対して一般性を持つことを明らかにします。