深呼吸を取り入れる: センチネル・トークンを用いた大規模言語モデルの言語モデリングを強化する

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、各テキスト・チャンクの末尾に特殊トークン<SR>を挿入し、<SR>トークンを介してチャンクレベルの情報を伝播するようにアテンションマスクを調整することを提案する。
  • <SR>トークンは、各チャンクからの意味情報を要約・統合し、長い文脈にわたる推論を助ける。
  • この手法は、TransformerベースのLLMが長期的な文脈で劣化する問題を対象とし、言語モデリングおよびドメイン外の下流タスクで改善を示している。
  • 実験は、センチネル・トークンの有効性をベースラインと比較して検証した。

要旨:大型言語モデル(LLMs)は、さまざまなタスクで有望な有効性を示し、人間の生活の多くの側面で強力なツールとなっています。しかし、トランスフォーマーに基づく LLM は、長期的な文脈をモデル化する際に、計算オーバーヘッドを削減するために情報の一部を破棄することから性能が低下します。本研究では、LLMs が一息つくことを可能にし、離散的なテキストチャンク内の情報を要約するよう促す、単純でありながら効果的な方法を提案します。具体的には、テキストを複数のチャンクに分割し、各チャンクの末尾に特殊トークン を挿入します。次に、アテンションマスクを修正して、チャンクの情報を対応する トークンに統合します。これにより、LLMs は過去の個々のトークンだけでなく トークンからも情報を解釈し、チャンクの意味情報を集約します。言語モデリングおよび分野外の下流タスクでの実験は、提案アプローチの優位性を検証します。

返却形式: {"translated": "翻訳されたHTML"}