3D S-NUCA Many-Cores における、サーマルおよびカーネル認識型 LFM 推論のための能動的模倣学習

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、より良い帯域/局所性を備える一方でサーマルおよびキャッシュ遅延の課題を抱える、次世代の3Dスタック Static Non-Uniform Cache Architecture(3D S-NUCA)CPU上で、大規模基盤モデル(LFM)の推論を効率的に実行するという課題に取り組む。
  • それに対し、本論文では AILFM(Active Imitation Learning)という、オラクルによるデモンストレーションを用いて、サーマルを考慮したほぼ最適なスレッド移行および V/f スケーリング方策を学習するスケジューリング・フレームワークを提案する。
  • AILFM は、コア単位の性能ヘテロジニアス(不均一性)と、多様な LFM カーネルにわたるカーネル固有の振る舞いの両方を明示的にモデル化し、動作をサーマル安全制約の範囲内に保つ。
  • 著者らは、広範な実験結果により、AILFM が既存の最先端ベースラインを上回り、さまざまな LFM 推論ワークロードに対して汎化することを報告している。

Abstract

大規模フレームワークモデル(LFM)の推論は、メモリおよび計算の両面で負荷が高く、従来はGPUに依存してきました。しかし、利用可能性の制限と高コストが、特に登場しつつある3Dスタック型の静的非一様キャッシュ・アーキテクチャ(3D S-NUCA)システムを中心に、高性能な汎用CPUの採用を後押ししています。これらのアーキテクチャは、帯域幅と局所性を高める一方で、3Dネットワーク・オン・チップ(NoC)による深刻な熱課題とキャッシュ待ち時間の不均一性に悩まされます。スレッド移行の最適な管理とV/fスケーリングは、LFMカーネルの多様性とシステムのヘテロジニアスさのため自明ではありません。既存の熱管理手法は、しばしば過度に単純化された解析モデルに依存しており、適応性に欠けます。そこで本研究では、AIL(Active Imitation Learning)に基づくスケジューリングフレームワークであるAILFMを提案します。これは、オラクルによるデモンストレーションから、最小限の実行時オーバーヘッドで、熱を考慮したほぼ最適なスケジューリング方策を学習します。AILFMは、LFMにおけるコアレベルの性能ヘテロジニアス性と、カーネル固有の挙動の両方を考慮し、熱安全性を維持しつつ性能を最大化します。大規模な実験により、AILFMが最先端のベースラインを上回り、さまざまなLFMワークロードに対しても良好に一般化することが示されました。