要約:
大規模言語モデル(LLM)は、重要な情報を正確に取り出す能力に課題があることが判明しています。これに対処するため、Mask-Enhanced Autoregressive Prediction (MEAP) を提案します。これは、Masked Language Modeling (MLM) を Next-Token Prediction (NTP) にシームレスに組み込む、単純でありながら効果的な学習パラダイムであり、後者の文脈内検索能力を高めます。
具体的には、MEAP は入力トークンのごく一部をランダムにマスキングし、その後、デコーダーのみの Transformer を用いた標準的な次のトークン予測を直接実行します。
MEAP は MLM に対して双方向注意機構やエンコーダ-デコーダ構造の必要性を排除し、事前学習や推論時の追加計算オーバーヘッドを生じさせません。
集中的な実験により、MEAP は主要な情報検索および長い文脈推論タスクで NTP を大幅に上回り、常識推論タスクでは同等かそれ以上の性能を示すことがわかります。
MEAP の利点は監督付きファインチューニングにも及び、途中で情報が欠落するシナリオで顕著な利点を示し、NTP を 11.77 ポイント上回ります。
分析によれば、MEAP の有効性は、マスクされていないトークンの限定された集合に集中することによって、より識別しやすいアテンションスコアを促進する能力に起因します。この機構は、周辺の文脈の影響を緩和しつつ、タスク関連シグナルへのモデルの焦点を高めます。
これらの知見は、MEAP を大規模言語モデルの有望な学習パラダイムとして位置づけます。
マスク強化型自己回帰予測: 少ない注意でより多くを学ぶ
arXiv cs.CL / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MEAPは、入力トークンのごく一部をマスクし、デコーダーのみのトランスフォーマーで自己回帰デコードを実行することで、マスク済み言語モデリングをNext-Token Predictionに統合するトレーニングパラダイムであり、双方向アテンションやエンコーダ-デコーダ MLM の必要性を排除します。
- 事前学習時および推論時に追加の計算オーバーヘッドを課さず、文脈内検索と長い文脈での推論を大幅に改善し、主要な情報検索タスクで標準的なNTPを上回り、常識推論の性能を維持または向上させます。
- 監督付きファインチューニングでは、lost-in-the-middleシナリオ(途中で情報が欠落する状況)においてMEAPが実質的な利点を示し、NTPを11.77ポイント上回ります。
- 著者らは、非マスクトークンの縮小集合のみに焦点を当てることで生じる、より識別性の高いアテンションスコアが MEAP の有効性を生み出し、モデルがタスクに関連する信号へ注意を向けるのを助けると説明します。
- これらの知見は、MEAPを大規模言語モデル向けの有望なトレーニングパラダイムとして位置づけ、モデルのトレーニングおよびデプロイメントに広範な影響を与える可能性があります。