Abstract
大規模言語モデル(LLM)がスケールしていくにつれ、推論効率が重要なボトルネックになります。マルチトークン予測(MTP)は、複数の将来トークンを並列に予測することでLLMの推論を加速できる可能性があります。しかし、既存のMTP手法には依然として2つの課題があります。すなわち、MTPヘッドの受容率が限られていること、そして複数のMTPヘッドを共同で学習することが難しいことです。そこで本研究では、追加の学習コストを最小限に抑えつつ有効性をもつ、単純ながら効果的な自己蒸留手法であるMTP-Dを提案します。これにより、主要ヘッドの性能を最大限に維持しながら、MTPヘッドの受容率を向上(+7.5\%)させます。さらに、MTP-Dのためのループ拡張戦略も導入し、効果的かつ経済的なMTPヘッドの拡張を可能にし、さらなる推論速度向上として1ヘッドMTPで最大+220.4\%を実現します。また、7つのベンチマークに対する大規模な実験を通じて、蒸留戦略に関する重要な洞察と、MTPのスケーラビリティの可能性を体系的に探索し、検証します。これらの結果は、我々のMTP-Dおよびループ拡張戦略が、MTPヘッドの性能と推論効率を効果的に向上させ、LLMにおけるMTPの実用的な利用を後押しすることを示しています。