MARS: 自己回帰モデルによるマルチトークン生成を可能にする

arXiv cs.CL / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

MARS（Mask AutoRegreSsion）は、既存のinstruction-tunedな自己回帰（AR）言語モデルに軽量な追加学習を行い、1回のforward passで複数トークンを予測できるようにする手法を提案している。
MARSは新しいアーキテクチャ変更や追加パラメータを必要とせず、元のARモデルと同じ呼び出し手順のまま性能劣化なしで多トークン生成に対応する。
通常の1トークン/ステップの生成では6つの標準ベンチマークでARベースラインに匹敵または上回り、複数トークン/ステップでもベースライン精度を維持しつつ1.5〜1.7倍のスループットを実現する。
さらにブロック単位のKVキャッシュ戦略によりバッチ推論で最大1.71倍のウォールクロックスピードアップを示し、確信度（confidence）しきい値によるリアルタイムの速度調整（高負荷時にスループットを増やす）も可能としている。

概要: 自己回帰（AR）言語モデルは、直前のトークン列がそれまでの文脈から非常に高い確度で予測できる場合でも、1トークンずつテキストを生成します。私たちは、命令チューニング済みのARモデルに対し、1回のフォワードパスで複数トークンを予測することを教える、軽量な微調整手法であるMARS（Mask AutoRegreSsion）を提案します。MARSは追加のアーキテクチャ変更や追加パラメータを一切行わず、性能低下なしで、元のARモデルとまったく同じように呼び出せる1つのモデルを生成します。対象モデルとは別に下書きモデルを維持する推論のためのスペキュレイティブ・デコーディングや、追加の予測ヘッドを取り付けるMedusaのようなマルチヘッド手法とは異なり、MARSは既存の命令データに対して継続学習を行うだけで済みます。1回のフォワードパスで1トークンだけを生成する場合、MARSは6つの標準ベンチマークでARのベースラインに対して同等以上の性能を示します。複数トークンを1ステップで受け取ることを許すと、ベースラインと同等の精度を維持しつつ、スループットを1.5〜1.7倍に向上させます。さらに、バッチ推論向けにブロック単位のKVキャッシュ戦略を発展させ、Qwen2.5-7BでKVキャッシュを用いることで、ARに対して最大1.71倍のウォールクロックスピードアップを達成します。最後に、MARSは信頼度の閾値付けによるリアルタイムな速度調整をサポートします。高いリクエスト負荷のもとでは、提供（サービング）システムが、モデルの差し替えや再起動を行うことなく、その場でスループットを引き上げることができ、デプロイ時に使える実用的なレイテンシーと品質の調整つまみを提供します。

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

この推測は、あながち的外れではないのでは？

Reddit r/LocalLLaMA

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

Dev.to

MARS: 自己回帰モデルによるマルチトークン生成を可能にする

要点

関連記事

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ