マルチトークン予測のための自己蒸留

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、7つのベンチマークに対する大規模な実験を通じて、蒸留とスケーラビリティに関する洞察を検証し、その手法が実際のLLM導入に向けてMTPをより実用的にできることを示しています。

Abstract

大規模言語モデル（LLM）がスケールしていくにつれ、推論効率が重要なボトルネックになります。マルチトークン予測（MTP）は、複数の将来トークンを並列に予測することでLLMの推論を加速できる可能性があります。しかし、既存のMTP手法には依然として2つの課題があります。すなわち、MTPヘッドの受容率が限られていること、そして複数のMTPヘッドを共同で学習することが難しいことです。そこで本研究では、追加の学習コストを最小限に抑えつつ有効性をもつ、単純ながら効果的な自己蒸留手法であるMTP-Dを提案します。これにより、主要ヘッドの性能を最大限に維持しながら、MTPヘッドの受容率を向上（+7.5\%）させます。さらに、MTP-Dのためのループ拡張戦略も導入し、効果的かつ経済的なMTPヘッドの拡張を可能にし、さらなる推論速度向上として1ヘッドMTPで最大+220.4\%を実現します。また、7つのベンチマークに対する大規模な実験を通じて、蒸留戦略に関する重要な洞察と、MTPのスケーラビリティの可能性を体系的に探索し、検証します。これらの結果は、我々のMTP-Dおよびループ拡張戦略が、MTPヘッドの性能と推論効率を効果的に向上させ、LLMにおけるMTPの実用的な利用を後押しすることを示しています。

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Dev.to

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

マルチトークン予測のための自己蒸留

要点

Abstract

関連記事

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

プロンプト・マーケットの規制：証券法、知的財産、そしてプロンプト・アセットの取引

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer