教師あり学習には必要な幾何学的な盲点がある:理論、帰結、そして最小限の修復

arXiv cs.LG / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、経験的リスク最小化(ERM)が学習表現に「幾何学的な盲点」を課すことを証明し、教師あり損失を最小化するエンコーダは、訓練データではラベル相関方向に対してはヤコビアン感度をゼロにできず、その一方でテスト時にはそれが厄介になることを示します。
  • この盲点は、非ロバストな予測的特徴、テクスチャバイアス、破壊(腐敗)への脆さ、ロバスト性と精度のトレードオフといった、従来別々に扱われてきた複数の現象を統一的に説明し、敵対的脆弱性を教師あり学習の幾何に関する構造的帰結として位置づけます。
  • 著者らは、定理が境界付ける量を直接捉える診断指標として Trajectory Deviation Index(TDI)を提案し、従来の代替指標が重要な失敗モードを見落とし得る理由を示します。
  • BERT/SST-2 や、CLIP・DINO・SAM で使われる ImageNet の ViT-B/16 といったバックボーンを含む複数の視覚・言語設定での実験により、盲点が測定可能で、言語モデルのスケールとともに悪化し得ること、そして PMH によって約11×改善(ガウス形の追加学習項による修復)できることを示します。
  • 盲点は、現在のアーキテクチャやデータセットの“偶然の失敗”ではなく、適切なスコアリング則、アーキテクチャ、データサイズにわたって成り立つ必要な性質だと主張されています。

要旨: 我々は、経験的リスク最小化(ERM)が、学習された表現に対して必要な幾何学的制約を課すことを証明する。すなわち、教師あり損失を最小化する任意のエンコーダは、学習データでラベルと相関しているが、テスト時には無関係(ヌイサンス)となる方向において、ヤコビアン感度がゼロでないことを保持しなければならない。これは、現在の手法に固有の偶発的な失敗ではない。教師あり目的関数それ自体が数学的に導く帰結である。我々はこれを教師あり学習の幾何学的ブラインドスポット(定理1)と呼び、妥当なスコアリング則、アーキテクチャ、データセットサイズにわたって成り立つことを示す。
この単一の定理は、従来は別々に扱われてきた経験的な4つの研究の流れを統一する。それは、非ロバストな予測特徴、テクスチャバイアス、破損(コラプション)への脆弱性、そしてロバスト性-精度のトレードオフである。この枠組みにおいて、敵対的脆弱性は、教師あり学習の幾何学に関するより広い構造的事実の一つの帰結として現れる。
我々は、定理の(有界な)量を直接測定する診断指標であるTrajectory Deviation Index(TDI)を導入し、一般的な代替指標がなぜ主要な失敗モードを見落とすのかを示す。PGDの敵対的訓練はヤコビアン・フロベニウスを2.91まで到達させるが、最も悪いクリーン入力の幾何(TDI 1.336)を示し、一方でPMHはTDI 0.904を達成する。TDIは、等方的な経路長の歪み――定理1が境界づける正確な量――を測定する唯一の指標であるため、この解離を検出できる。
7つの視覚タスクと、CLIPが用いるBERT/SST-2、およびImageNetのViT-B/16バックボーン(DINOやSAMが使用)において、ブラインドスポットは測定可能であり、修復可能である。これは基盤モデルのスケールでも存在し、言語モデルのサイズが大きくなるにつれて単調に悪化する(66Mから340Mまででブラインドスポット比 0.860 → 0.765 → 0.742)。さらに、タスク固有のERMによる微調整によって増幅される(+54%)。一方でPMHは、追加の訓練項を1つ加えることで11倍により修復し、そのガウス形の摂動則は命題5によって、エンコーダのヤコビアンを一様に罰する唯一の摂動法則であることが示される。