TRN-R1-Zero:強化学習のみで実現するLLMによるテキストリッチ・ネットワーク推論

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • TRN-R1-Zeroは、タスク固有の教師なしでテキストの意味とリレーショナル構造を統合する、テキストリッチ・ネットワーク(TRN)のゼロショット推論向け新しいポストトレーニング枠組みです。
  • 隣接情報を考慮したGroup Relative Policy Optimisationを用い、近傍信号の情報性を評価する新しいマージンゲイン指標に基づいて報酬を動的に調整することで、ベースLLMを直接最適化します。
  • 従来のLLMベース手法がグラフ文脈を十分に扱わなかったり、大規模推論モデルからの蒸留に依存したりするのに対し、TRN-R1-Zeroは教師ありの微調整や大規模モデル生成のチェーン・オブ・ソートデータを必要としません。
  • 引用・ハイパーリンク・ソーシャル・共同購入といった複数のTRNベンチマークで、TRN-R1-Zeroは高い性能と頑健性を示し、ノードレベル学習のみでエッジ/グラフレベル課題のゼロショット推論も可能にします。
  • 併設するコードが公開されており、再現性のある検証や発展的な実験が進められます。

要旨: テキストリッチ・ネットワーク(TRN)に対するゼロショット推論は、モデルがタスク固有の教師あり信号なしに、テキストの意味論と関係(リレーショナル)構造を統合する必要があるため、依然として挑戦的な最前線です。グラフニューラルネットワークは固定のラベル空間と教師ありの目的関数に依存しますが、近年の大規模言語モデル(LLM)ベースのアプローチは、グラフ文脈を見落とすことが多いか、あるいはより大きなモデルからの蒸留に依存することがあり、一般化が制限されます。私たちは、強化学習のみで訓練するTRN推論の事後学習フレームワークであるTRN-R1-Zeroを提案します。TRN-R1-Zeroは、Neighbour-aware Group Relative Policy Optimisation(近傍を考慮したグループ相対ポリシー最適化)目的関数によって、ベースのLLMを直接最適化します。この目的関数は、新しいマージンゲイン指標に基づいて報酬を動的に調整し、近傍からの信号がどれほど有益(インフォーマティブ)かを測ります。これにより、モデルを関係推論へと効果的に導きます。従来手法とは異なり、TRN-R1-Zeroは、大規模な推論モデルが生成したチェーン・オブ・ソートデータや教師ありのファインチューニングを必要としません。引用(citation)、ハイパーリンク(hyperlink)、ソーシャル(social)、および共同購入(co-purchase)の各TRNベンチマークにわたる大規模な実験により、TRN-R1-Zeroの優位性と頑健性が示されます。さらに、ノードレベルの訓練のみに厳密に依拠することで、TRN-R1-Zeroはエッジレベルおよびグラフレベルのタスクに対するゼロショット推論を達成し、ドメイン間の転移を超えて拡張されています。コードベースは https://github.com/superallen13/TRN-R1-Zero で公開されています。