自己蒸留によるマルチトークン予測

arXiv cs.CL / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、自己回帰型LLMを単一トークン予測から高速なマルチトークン予測へ変換するための、シンプルなオンライン自己蒸留目的を提案している。
  • スペキュレイティブ・デコーディングとは異なり、補助となるスペキュレーター用モデルの学習や、複雑な複数コンポーネントの推論パイプライン構築を不要にしている。
  • 得られるマルチトークンモデルは、元の事前学習チェックポイントと同一の実装のままであり、追加の実装変更なしで展開しやすい。
  • 実験では、同一チェックポイントの単一トークンのデコーディング性能と比べて、GSM8Kで精度の低下を5%未満に抑えつつ、デコード速度が3倍以上向上した。