Lean 4で統計的学習理論を形式化する(R)

Reddit r/MachineLearning / 2026/5/9

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • FormalSLTはLean 4上で統計的学習理論の主要部分を形式化する取り組みであり、厳密さと読みやすさを両立した定理構築を目指している。
  • 現在、有限クラスのERM境界、ラデマッハ対称化、高確率ラデマッハ境界、VC次元との関係(Sauer–Shelah)、有限スカラー縮約、線形予測子の境界、有限PAC-Bayes境界、アルゴリズム的安定性など、多数の代表的な学習理論の結果が形式化されている。
  • 方針としては「定理ラダー(theorem ladder)」を作ることで、前提の明示、定理のスコープ管理、そしてLeanの未完成証明(`sorry`)を使わないことを重視している。
  • 他のLean SLTの取り組みが抽象的な確率や経験過程の基盤により強く焦点を当てるのに対し、本プロジェクトは有限サンプルのPAC/Rademacher/安定性ルートと、標準的なSLTの流れに沿った読みやすい一連の定理鎖を優先している。
  • 著者は、定理の整理、証明構造、命名・API設計、次に形式化すべき有用なターゲットについてのフィードバックを求めている。
Lean 4での統計的学習理論の形式化 [R]

私は、統計的学習理論の一部を形式化することに焦点を当てた Lean 4 プロジェクトを進めています:

FormalSLT リポジトリ

現在の成果には以下が含まれます:

  • 有限クラスの ERM に関する境界
  • ラデマッハ対称化
  • 高確率のラデマッハ境界
  • Sauer–Shelah / VC 次元の橋渡し
  • 有限スカラー収縮
  • 線形予測子の境界
  • 有限 PAC-Bayes 境界
  • アルゴリズム的安定性

主な考え方は、単発の宣言だけでなく、ML 理論のための読みやすく教育的に構成された「定理ラダー」を構築することです。

私は次の点を維持したいと考えています:

  • 明示的な仮定
  • 範囲(スコープ)付きの定理記述
  • 一切の sorry
  • 標準的な SLT の提示との密接な整合

経験過程の基盤や抽象的な確率の仕組みにより重きを置く、いくつかの既存の Lean SLT の取り組みと比べて、このプロジェクトは現状、明示的な有限サンプルの PAC/Rademacher/安定性のルートと、読みやすいエンドツーエンドの定理の連鎖により重点を置いています。

特に次についてフィードバックをいただけると嬉しいです:

  • 定理の組織化
  • 証明の構造
  • 命名/API の意思決定
  • 有用な次の形式化ターゲット

ありがとうございます、
R. S

submitted by /u/trickyrex1
[リンク] [コメント]