早期退出ネットワークはいつ汎化するのか？適応的深さのPAC-ベイズ理論

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、途中層で早期退出して推論を高速化する（適応的深さ）ニューラルネットワークの汎化を説明するために、統一的なPAC-ベイズ理論的枠組みを提示している。
退出深度のエントロピーH(D)と期待深さE[D]に基づく新しいエントロピーベースの汎化境界を導出し、最大深さKではなくそれらに依存するため、サンプル計算量をO((E[D]·d + H(D))/ε^2)へ改善している。
主要な係数sqrt(2 ln 2) ≈ 1.177を含む明示的な構成定数を与え、適応的深さネットワークが固定深さのモデルを厳密に上回る十分条件も示している。
ラベル独立性の厳密な仮定を、ε-近似ポリシーへ拡張することで、学習済みルーティングに対する適用可能性を広げている。
6種類のアーキテクチャと7つのベンチマークにわたる実験で、境界のタイトさ（tightness ratios 1.52–3.87×、すべてp < 0.001）と、境界に基づくしきい値選択が検証チューニング性能に非常に近いこと（0.1–0.3%以内）を示している。

Abstract

早期終了型ニューラルネットワークは、確信度の高い予測によって中間層でモデルを離脱（exit）できるようにすることで、適応的計算を可能にし、2-8

\times

の推論速度向上を実現します。広く導入されているにもかかわらず、その一般化特性については理論的な理解が欠けており、近年の調査（サーベイ）で明確に指摘されています。本論文では、適応深度ネットワークのための統一的な PAC-Bayesian フレームワークを確立します。 (1) 新規のエントロピーに基づく境界：最大深度

K

ではなく、離脱深度エントロピー

H(D)

と期待深度

\mathbb{E}[D]

に依存する、最初の一般化境界を証明します。サンプル計算量（サンプルコンプレキシティ）は

\mathcal{O}((\mathbb{E}[D] \cdot d + H(D))/\epsilon^2)

です。 (2) 明示的な構成定数：解析により、先頭係数

\sqrt{2\ln 2} \approx 1.177

を導出し、完全な導出を与えます。 (3) 証明可能な早期終了の利点：適応深度ネットワークが固定深度の対応物を厳密に上回るための十分条件を確立します。 (4) 近似ラベル独立性への拡張：ラベル独立性の仮定を、

\epsilon

-近似ポリシーへと緩和し、学習されたルーティングへの適用可能性を広げます。 (5) 包括的な検証：7 つのベンチマークにおいて 6 つのアーキテクチャで行った実験により、古典的な境界に対しては

>100\times

であるのに対し、厳密性（タイトさ）の比率が 1.52-3.87

\times

（すべて

p < 0.001

）であることを示します。境界に基づく閾値選択は、検証で調整した性能と 0.1-0.3% の範囲で一致します。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

早期退出ネットワークはいつ汎化するのか？適応的深さのPAC-ベイズ理論

要点

Abstract

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer