概要: 自己回帰(AR)言語モデルは、直前のトークン列がそれまでの文脈から非常に高い確度で予測できる場合でも、1トークンずつテキストを生成します。私たちは、命令チューニング済みのARモデルに対し、1回のフォワードパスで複数トークンを予測することを教える、軽量な微調整手法であるMARS(Mask AutoRegreSsion)を提案します。MARSは追加のアーキテクチャ変更や追加パラメータを一切行わず、性能低下なしで、元のARモデルとまったく同じように呼び出せる1つのモデルを生成します。対象モデルとは別に下書きモデルを維持する推論のためのスペキュレイティブ・デコーディングや、追加の予測ヘッドを取り付けるMedusaのようなマルチヘッド手法とは異なり、MARSは既存の命令データに対して継続学習を行うだけで済みます。1回のフォワードパスで1トークンだけを生成する場合、MARSは6つの標準ベンチマークでARのベースラインに対して同等以上の性能を示します。複数トークンを1ステップで受け取ることを許すと、ベースラインと同等の精度を維持しつつ、スループットを1.5〜1.7倍に向上させます。さらに、バッチ推論向けにブロック単位のKVキャッシュ戦略を発展させ、Qwen2.5-7BでKVキャッシュを用いることで、ARに対して最大1.71倍のウォールクロックスピードアップを達成します。最後に、MARSは信頼度の閾値付けによるリアルタイムな速度調整をサポートします。高いリクエスト負荷のもとでは、提供(サービング)システムが、モデルの差し替えや再起動を行うことなく、その場でスループットを引き上げることができ、デプロイ時に使える実用的なレイテンシーと品質の調整つまみを提供します。
MARS: 自己回帰モデルによるマルチトークン生成を可能にする
arXiv cs.CL / 2026/4/9
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- MARS(Mask AutoRegreSsion)は、既存のinstruction-tunedな自己回帰(AR)言語モデルに軽量な追加学習を行い、1回のforward passで複数トークンを予測できるようにする手法を提案している。
- MARSは新しいアーキテクチャ変更や追加パラメータを必要とせず、元のARモデルと同じ呼び出し手順のまま性能劣化なしで多トークン生成に対応する。
- 通常の1トークン/ステップの生成では6つの標準ベンチマークでARベースラインに匹敵または上回り、複数トークン/ステップでもベースライン精度を維持しつつ1.5〜1.7倍のスループットを実現する。
- さらにブロック単位のKVキャッシュ戦略によりバッチ推論で最大1.71倍のウォールクロックスピードアップを示し、確信度(confidence)しきい値によるリアルタイムの速度調整(高負荷時にスループットを増やす)も可能としている。
