重要情報へのステップごとの注意(ステップワイズ・アテンション)と層の混合蒸留(Mixture-of-Layers Distillation)で小型モデルの推論力を高める

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの高い計算コストに対処するため、chain-of-thought(CoT)蒸留によって小型モデルへ推論能力を蒸留することに焦点を当てています。
  • 既存のCoT蒸留は、推論過程で教師モデルが重要情報へどのように動的に注意を移しているかを十分に扱っていないと主張しています。
  • 著者らは、教師の「重要情報へのステップごとの注意」を学生モデルに転移して、推論中の学生の段階的な注目を導く新しいCoT蒸留フレームワークを提案しています。
  • さらに、教師と学生の間で層の対応を動的に合わせる「Mixture of Layers」モジュールを導入しています。
  • 実験では、数学および常識推論の複数データセットで一貫した性能向上が示され、CoT蒸留の中でステップワイズ注意を活用して小型モデルの推論を改善する点で先駆的であると述べています。