ConfLayers：自己推奨（セルフ・スペキュレーティブ）デコーディングにおける適応的信頼度ベースの層スキッピング

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、出力品質を落とさずに大規模言語モデルの生成を高速化することを目的とした、新しい自己推奨（セルフ・スペキュレーティブ）デコーディング手法「ConfLayers」を提案しています。
従来はレイヤースキップの方針を学習したりヒューリスティックに頼ったりすることが多いのに対し、ConfLayersは信頼度に基づく中間層スキッピングによってドラフトモデルをプラグ＆プレイで構成します。
ConfLayersは、全層の信頼度スコアを反復的に計算し、適応的に閾値を変えながらスキップする層を選択して、その性能を評価し、改善が止まるまで、または反復回数の上限に達するまで繰り返します。
専用のレイヤースキッピング方針を学習するための訓練コストや複雑さを回避しつつ、ドラフトモデルがタスクやデータセットに適応できる性質を維持することを狙っています。
複数のモデルとデータセットでの評価により、ConfLayersはバニラのLLM生成に対して最大1.4×の速度向上を示しています。

Abstract

自己推論的デコーディング（self-speculative decoding）は、大規模言語モデル向けの推論手法であり、出力品質を犠牲にせずに生成を高速化することを目的としています。これは、コンパクトなバージョンのモデルを下書きモデル（draft model）として用いた高速で近似的なデコーディングと、完全な目標モデルによる選択的な再評価を組み合わせるものです。既存のいくつかの手法では、推論中にスキップする層（layer）を動的に学習することで下書きモデルを構成し、計算を高速化するためのより小さなサブネットワークを実質的に作り出します。しかし、スキップする層の選択にヒューリスティック（経験則）ベースのアプローチを用いると、しばしばより単純で、かつより効果的であることがあります。本論文では、信頼度に基づく中間層スキッピングによって自己推論的デコーディング内で下書きモデルを形成するための、動的なプラグ＆プレイ方式である ConfLayers を提案します。このプロセスでは、すべての層に対して信頼度スコアを反復的に計算し、適応的なしきい値に基づいてスキップする層を選択し、得られた層集合の性能を評価し、その選択がこれ以上改善できない場合、または最大反復回数に到達するまで最良の選択を更新します。この枠組みは、層スキッピング方策の訓練に伴うオーバーヘッドと複雑性を回避でき、、多様なタスクやデータセットに対して下書きモデルの適応性を維持しつつ、より一貫した速度と品質のトレードオフを提供し得ます。異なるモデルおよびデータセットに対する ConfLayers の性能評価により、新しい本アプローチは、バニラの LLM 生成に比べて最大 1.4x の高速化を実現することが示されています。