複数のスーパーコンピュータ上での科学系ファウンデーションモデルのためのスケーラブルな跨施設連合学習

arXiv cs.LG / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者らは、異種のHPC環境に対応した跨施設連合学習フレームワークを提示し、APPFLとGlobus Computeおよび転送オーケストレーションを基盤として、複数のDOEリーダーシップ級スーパーコンピュータ間でのトレーニングを可能にする。
  • 現実的なHPCスケジューリングの下でトレーニング性能に影響を与える異質性の源を特徴づけ、アルゴリズムの選択が結果に著しく影響することを示している。
  • このアプローチを、化学に関する指示データセット上で大規模言語モデルをファインチューニングすることで検証し、実践的な科学的適用性を示している。
  • 将来の跨施設展開のための重要なオープン課題として、スケジューラを意識したアルゴリズム設計を特定している。

概要: 科学的応用における人工知能は、プライバシー制約、データ主権、または生成されるデータ量の膨大さのために、データを中央集権化できない状況で大規模モデルを訓練することをますます求めています。連合学習(FL)は、生データを中央集権化せずに協調訓練を可能にすることでこれに対処しますが、科学的応用は、広範な計算資源を必要とするモデル規模を要求します。通常、それは高性能計算(HPC)施設で提供されます。HPC施設間でFL実験を展開することは、クラウドや企業環境を超える課題をもたらします。私たちは、Globus Compute および Transfer オーケストレーションを備えた Advanced Privacy-Preserving Federated Learning (APPFL) フレームワーク上に構築された、異種混在の HPC 環境向けの包括的なクロスファシリティ FL フレームワークを提示し、米国エネルギー省(DOE)のリーダーシップクラスのスーパーコンピュータ4台にわたって評価します。私たちは、HPC施設間でのFL実験は実際的に達成可能であることを実証し、訓練性能に影響を与える主要な非均質性の源を特徴づけ、現実的なHPCスケジューリング条件下でアルゴリズムの選択が著しく重要であることを示します。科学的適用性を検証するために、化学指示データセットを用いて大規模言語モデルをファインチューニングし、将来のデプロイメントに向けたスケジューラを意識したアルゴリズム設計を重要な未解決課題として特定します。

複数のスーパーコンピュータ上での科学系ファウンデーションモデルのためのスケーラブルな跨施設連合学習 | AI Navigate