深呼吸を取り入れる: センチネル・トークンを用いた大規模言語モデルの言語モデリングを強化する

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、各テキスト・チャンクの末尾に特殊トークン<SR>を挿入し、<SR>トークンを介してチャンクレベルの情報を伝播するようにアテンションマスクを調整することを提案する。
<SR>トークンは、各チャンクからの意味情報を要約・統合し、長い文脈にわたる推論を助ける。
この手法は、TransformerベースのLLMが長期的な文脈で劣化する問題を対象とし、言語モデリングおよびドメイン外の下流タスクで改善を示している。
実験は、センチネル・トークンの有効性をベースラインと比較して検証した。

要旨：大型言語モデル（LLMs）は、さまざまなタスクで有望な有効性を示し、人間の生活の多くの側面で強力なツールとなっています。しかし、トランスフォーマーに基づく LLM は、長期的な文脈をモデル化する際に、計算オーバーヘッドを削減するために情報の一部を破棄することから性能が低下します。本研究では、LLMs が一息つくことを可能にし、離散的なテキストチャンク内の情報を要約するよう促す、単純でありながら効果的な方法を提案します。具体的には、テキストを複数のチャンクに分割し、各チャンクの末尾に特殊トークンを挿入します。次に、アテンションマスクを修正して、チャンクの情報を対応するトークンに統合します。これにより、LLMs は過去の個々のトークンだけでなくトークンからも情報を解釈し、チャンクの意味情報を集約します。言語モデリングおよび分野外の下流タスクでの実験は、提案アプローチの優位性を検証します。

返却形式: {"translated": "翻訳されたHTML"}

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

深呼吸を取り入れる: センチネル・トークンを用いた大規模言語モデルの言語モデリングを強化する

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer