AI Navigate

条件付きより先に現れる周辺分布

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ニューラルネットワークにおける条件付き学習を分離する最小タスクを構築します。K重の曖昧さを全射写像で解決するセレクタトークン z によって、H(A|B) = log K、かつ H(A|B, z) = 0 となります。
  • モデルはまず周辺分布 P(A|B) を学習し、正確に log K の高さを持つプラトーを生み出します。その持続時間は K ではなくデータセットサイズ D に依存します。
  • 勾配ノイズは周辺解を安定化させます。より高い学習率は遷移を単調に遅くし、バッチサイズを小さくするとエスケープが遅延します。これは低勾配の周辺からの離脱を妨げるエントロピー的力と一致します。
  • プラトーの期間中にセレクタールーティングヘッドが形成され、待機時間の約50%の時点でロス遷移を主導します。これは Papadopoulos ら [2024] の Type 2 の方向性非対称性を動的に示します。
  • 本研究は、log K からゼロへの過剰リスクを追跡し、それを安定化させる要因、崩壊を引き起こす要因、そしてそれに要する時間を分析します。
本文: arXiv:2603.10074v1 アナウンス種別: cross Abstract: ニューラルネットワークにおける条件付き学習を分離する最小タスクを構築します。K 重の曖昧さを持つ全射写像を、セレクタートークン z によって解決します。これにより H(A|B) = log K、かつ H(A|B, z) = 0 となります。モデルはまず周辺分布 P(A|B) を学習し、正確に log K の高さのプラトーを生み出しますが、その後、全条件付きは鋭く、集合的な遷移で獲得されます。プラトーは明確な分解を持ちます:高さ = log K(曖昧さによって決まる)、持続時間 = f(D)(データセットサイズ D によって決まり、K ではない)。勾配ノイズは周辺解を安定化させます:高い学習率は遷移を単調に遅くし、一定のスループットのもとで η の範囲を 7 倍にしても遷移は約 3.6 倍遅くなります。さらに、バッチサイズの削減はエスケープを遅らせ、低勾配の周辺からの離脱を阻むエントロピー的力と一致します。内部では、プラトーの間にセレクタールーティングヘッドが組み上がり、待機時間のおおよそ50%の時点でロス遷移を主導します。これは Papadopoulos ら [2024] の Type 2 の方向性非対称性を動的に測定するものです。我々は log K からゼロへの過剰リスクを追跡し、それを安定化させるもの、崩壊を引き起こすもの、そしてそれが起こるのに要する時間を特徴づけます。