学習データ分布の彼方へ:ニューラル・プログラム合成における汎化境界の地図化

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データ汚染や学習コーパスが不透明であることによる誤解を避けつつ、ニューラル・プログラム合成モデルが本当に汎化しているかを厳密に測定するための統制された評価環境を提案している。
  • 算術文法に基づく領域特化の枠組みで、何百万もの一意なプログラムを列挙・評価し、解釈可能な統語的・意味的な距離(メトリック)空間を構築した。
  • 実験では、意味空間と統語空間の両方で多様なサンプリングを行うことで「密度汎化(density generalization)」が促進され、分布外(OOD)での汎化が強化されることが示された。
  • 一方で「サポート汎化(support generalization)」は大きく弱く、統語的に新規なプログラムの生成を強いられると性能が30%以上低下し、外挿の難しさが明らかになった。
  • 計算資源のスケーリングによる改善は厳密に対数線形に留まり、複数のマニフォールドにまたがる学習データの多様性最大化と、探索ベース手法によって現在のスケーリングのボトルネックを突破する必要があると結論づけている。

概要: 大規模トランスフォーマーはプログラム合成ベンチマークで目覚ましい成果を達成していますが、その真の汎化能力は、データ汚染や不透明な学習コーパスによって見えにくいままです。モデルが本当に一般化しているのか、それとも記憶したテンプレートを単に呼び出しているだけなのかを厳密に評価するために、ドメイン固有の算術文法に基づく、厳密に制御されたプログラム合成環境を導入します。数百万もの固有のプログラムを体系的に列挙し評価することで、解釈可能な構文および意味の計量空間を構築します。これにより、データ分布を正確に対応付け、特定の分布シフトを隔離する学習・テスト分割(サンプルの分割)を精密に設計できるようになります。実験の結果、密度汎化を最適化する──すなわち意味空間と構文空間の両方にわたって多様なサンプリングを行う──ことで、頑健な分布外(out-of-distribution)汎化が生じることが示されました。対照的に、サポート汎化を評価すると、トランスフォーマーは外挿に対して著しく苦戦し、構文的に新規なプログラムを生成することを強制した場合、性能が30%以上低下します。計算資源を継続的にスケールアップすると汎化は改善しますが、その向上は厳密に対数線形の関係に従います。頑健な汎化には、複数の多様体(マニフォールド)にまたがって学習の多様性を最大化する必要があると結論します。さらに、本研究の結果は、現在の対数線形スケーリングのボトルネックを打ち破るためには、新規な探索(search)ベースのアプローチが必要であることを示唆しています。