多クラス学習およびリスト学習における最適サンプル複雑度

arXiv stat.ML / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多クラスのサンプル複雑度に関する長年の未解決問題に取り組み、二値分類で確立しているVC次元に対応する形で、DS次元が正しい複雑度パラメータであることを示します。
  • Hannekeら(2026)の先行研究である代数的な特徴づけを発展させ、多クラス仮説クラスにおける最大ハイパーグラフ密度が、そのDS次元によって上界付けられることを示します。
  • この結果により、DanielyとShalev-Shwartz(2014)が提起した、多クラス学習の難しさに関する長年の予想が解決されます。
  • その帰結として、著者らは多クラス分類およびリスト学習のそれぞれについて、サンプル複雑度がDS次元に対してどのように最適に依存するかを導出します。
  • 全体として、上界と下界が約\sqrt{DS}の因子で食い違っていた理論的限界が、より厳密に絞り込まれる内容です。

Abstract

二値分類におけるVC次元に関する最適なサンプル複雑度はよく確立されている一方で、多クラス分類における最適なサンプル複雑度の決定は未解決のままであった。多クラス分類に適切な複雑度パラメータはDS次元であり、さまざまな努力にもかかわらず、サンプル複雑度の上界と下界の間にはsqrt{\text{DS}}のギャップが残り続けてきた。 Hannekeら(2026)による最近の研究は、DS次元に基づく代数的な観点から多クラス仮説クラスを新たに特徴づけることを示している。これを土台として、任意の多クラス仮説クラスの最大の双曲グラフ密度が、そのDS次元によって上から抑えられることを示す。これはDanielyとShalev-Shwartz(2014)による長年の予想を証明する。その結果として、我々は、多クラスに対してもリスト学習に対しても、サンプル複雑度がDS次元にどのように最適に依存するかを決定する。