制約結合型推論アーキテクチャによる蒸留耐性のための公開的理論

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、知識蒸留とモデル抽出における主要なリスクが、単に挙動をコピーすることではなく、当初それを保護していたガバナンスの統制よりも安価に“能力”を移転する点にあると主張する。
  • 「制約結合型推論」によるアーキテクチャ上のテーゼを提案し、高度な能力が、時間の経過に伴う状態遷移を制御する内部の安定性制約に結び付けられている場合、蒸留はより弱い近道(ショートカット)となると論じる。
  • この枠組みは、脅威モデルを定義し分析するために、4つの構成要素――境界化された遷移負担、経路負荷の蓄積、動的に進化する許容領域、そして能力‐安定性の結合条件――を形式化する。
  • 本研究はトレードシークレットに配慮した安全性を意図しており、独自の実装詳細、学習レシピ、計測(インストゥルメンテーション)、デプロイ手順、機密のシステム設計上の選択を意図的に回避する。
  • これは理論的ではあるが反証可能性を備えて提示されており、蒸留耐性、アライメント、モデルガバナンスに関する将来の研究を目的とした、実験的に検証可能な仮説を提示する。