G-Loss:グラフに導かれる言語モデルのファインチューニング

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 伝統的な損失関数(交差エントロピーなど)は、言語モデルの埋め込み空間で主に局所近傍に作用し、意味空間の大域的な構造を十分に捉えられない。
  • 本論文は、半教師ありのラベル伝播と埋め込み空間上の構造関係を取り込む「G-Loss」というグラフ誘導型の損失関数を提案する。
  • G-Lossは文書の類似性グラフを構築して大域的な意味関係を反映し、識別力が高く頑健な埋め込みの学習を後押しする。
  • MR(感情分析)、R8/R52(トピック分類)、Ohsumed(医療文書分類)、20NG(ニュース分類)の5つのベンチマークで評価した結果、従来の損失でファインチューニングしたモデルよりも分類精度が高くなることが多い。
  • 総じて、グラフベースの目的関数で大域的な意味構造を取り込むことが、言語モデルのファインチューニング品質向上につながることを示唆している。

Abstract

交差エントロピー、コントラスト損失、トリプレット損失、教師ありコントラスト損失などの従来の損失関数は、BERTのような事前学習済み言語モデルの微調整に用いられる場合、局所的な近傍の範囲でしか機能せず、グローバルな意味構造を考慮できません。そこで本研究では、埋め込み空間上の構造的関係を活用するために、半教師ありラベル伝播を組み込んだグラフ誘導型損失関数であるG-Lossを提案します。G-Lossは、グローバルな意味関係を捉えるドキュメント類似グラフを構築し、それによってモデルがより識別的で頑健な埋め込み表現を学習できるよう導きます。なお、主要な下流分類タスクをカバーする5つのベンチマークデータセットにおいてG-Lossを評価しました。具体的には、MR(感情分析)、R8およびR52(トピック分類)、Ohsumed(医療文書分類)、20NG(ニュース分類)です。多くの実験設定において、G-Lossはより速く収束し、意味的に整合性のある埋め込み空間を生成するため、従来の損失関数で微調整したモデルよりも分類精度が高くなります。