MARS: Enabling Autoregressive Models Multi-Token Generation
arXiv cs.CL / 4/9/2026
💬 OpinionDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
Key Points
- MARS(Mask AutoRegreSsion)は、既存のinstruction-tunedな自己回帰(AR)言語モデルに軽量な追加学習を行い、1回のforward passで複数トークンを予測できるようにする手法を提案している。
- MARSは新しいアーキテクチャ変更や追加パラメータを必要とせず、元のARモデルと同じ呼び出し手順のまま性能劣化なしで多トークン生成に対応する。
- 通常の1トークン/ステップの生成では6つの標準ベンチマークでARベースラインに匹敵または上回り、複数トークン/ステップでもベースライン精度を維持しつつ1.5〜1.7倍のスループットを実現する。
- さらにブロック単位のKVキャッシュ戦略によりバッチ推論で最大1.71倍のウォールクロックスピードアップを示し、確信度(confidence)しきい値によるリアルタイムの速度調整(高負荷時にスループットを増やす)も可能としている。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles
Amazon CEO takes aim at Nvidia, Intel, Starlink, more in annual shareholder letter
TechCrunch

Why Anthropic’s new model has cybersecurity experts rattled
Reddit r/artificial
Does the AI 2027 paper still hold any legitimacy?
Reddit r/artificial
Why Most Productivity Systems Fail (And What to Do Instead)
Dev.to
Moving from proof of concept to production: what we learned with Nometria
Dev.to