広告

Inter-Layer Structural Encoders による LLM の予測改善

arXiv cs.CL / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM の予測は最終層のトークン表現のみに依存する必要はなく、中間層が特定のタスクにとってより関連性の高い情報を保持し得ると主張している。
  • 複数の層にある LLM 内部表現を組み合わせることで、単一で有効な表現を学習する Inter-Layer Structural Encoders(ILSE)を提案する。
  • ILSE の主要コンポーネントである Cayley-Encoder は、拡張体 Cayley グラフ(expander Cayley graphs)を幾何学的で数学的に裏付けられたメカニズムとして用い、層間で構造情報を効率的に伝播させる。
  • 9 個の事前学習済み LLM(14M〜8B パラメータ)を用いた 13 の分類および意味類似タスクにおいて、ILSE はベースラインおよび既存手法に比べて、精度を最大 44% 向上、類似性指標を最大 25% 向上させると報告されている。
  • 本手法は少数ショット設定においてデータ効率が高いことが示されており、より小さなモデルがはるかに大きなモデルと競り合うのに役立ち得る。

Abstract

大規模言語モデル(LLM)における標準的な実践は、最終層のトークン表現に基づいて予測を行うことです。しかし、近年の研究では、中間層が実質的な情報を符号化しており、最終層の表現だけでは得られないタスクに関連した特徴を含んでいる可能性が示されています。重要なのは、異なるタスクに対しては、最適となる層が異なり得ることも示されている点です。本研究では、LLM内部の層表現をすべてまとめて用いて、1つの有効な表現を学習するための強力な構造的アプローチであるInter-Layer Structural Encoders(ILSE)を提案します。ILSEの中核はCayley-Encoderであり、展開(expander)Cayleyグラフを活用して層間の情報伝播を効率化する、数学的に裏付けられた幾何学的エンコーダです。我々は、14 millionから8 billionパラメータまでの9種類の事前学習済みLLMを用いて、13の分類および意味的類似度タスクにわたってILSEを評価します。ILSEは一貫してベースラインおよび既存手法を上回り、精度で最大44%の改善、類似度指標で25%の改善を達成します。さらに、ILSEは少数ショットの設定においてデータ効率が高く、小さなLLMでも、実質的により大規模なモデルに匹敵する性能を実現できることを示します。

広告