概要: トランスフォーマーに基づく強化学習は、住宅のエネルギー管理における逐次制御の有力な候補として注目されている。特に、Decision Transformerは、過去データから有効なバッテリー運用(dispatch)ポリシーを学習でき、その結果、太陽光発電の自家消費を増やし、電力コストを削減できる。しかし、トランスフォーマーモデルは通常、メモリやレイテンシの制約が極めて重要となる、計算資源に乏しい住宅用コントローラへの実装には計算負荷が高すぎる。本論文では、知識蒸留により、高容量のDecision Transformerポリシーの意思決定挙動を、組込み実装により適した小型モデルへ移すことを検討する。Ausgridデータセットを用いて、異質な複数建物データ上で、オフラインの系列ベースDecision Transformerフレームワークにより教師モデルを学習する。次に、教師の行動に一致させることで、小型の生徒モデルへ蒸留し、モデルサイズを削減しつつ制御品質を維持する。幅広い教師—生徒の構成において、蒸留は概ね制御性能を保持し、さらに最大1%に及ぶ小さな改善さえももたらす。一方で、パラメータ数は最大96%削減され、推論時のメモリは最大90%削減され、推論時間は最大63%削減される。これらの圧縮効果に加えて、同一のアーキテクチャ容量を持つ生徒モデルへ蒸留した場合にも、同等のコスト改善が観察される。全体として、本研究の結果は、知識蒸留によってDecision Transformerの制御が、計算資源に乏しいハードウェア上での住宅エネルギー管理により適用しやすくなることを示している。
ハードウェア制約のあるエネルギー管理システムにおける、効率的なトランスフォーマー基盤強化学習のための知識蒸留
arXiv cs.LG / 2026/3/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トランスフォーマー基盤の強化学習(特にDecision Transformer)が、厳しいレイテンシ制約を伴う住宅用エネルギー管理コントローラへの実装において、計算量・メモリ量の面で負担が大きすぎるという課題に取り組む。
- 異なる複数の建物データを用いて学習した高い能力を持つオフラインのDecision Transformer「教師」モデルから、組み込み用途向けの小型「生徒」モデルへと方策を転移するために、知識蒸留を提案する。
- Ausgridデータセットでの実験では、蒸留によって制御性能が概ね維持され、時折、小さな改善(最大で約1%)が見られる。
- この手法は大幅な効率改善をもたらし、パラメータを最大96%削減し、推論時のメモリを最大90%削減し、推論時間を最大63%削減する。
- 著者らは、知識蒸留により、資源が限られた住宅用エネルギー管理システムにおいて、Decision Transformerに基づく制御を実運用可能にできると結論づけており、生徒モデルのアーキテクチャサイズが教師と同程度の場合も含めて示している。



