要旨: 大規模分散システムにおける効率的なタスクスケジューリングは、動的なワークロード、異種のリソース、そして競合する品質保証(QoS)の要件により、大きな課題を抱えています。従来の集中型アプローチはスケーラビリティの限界や単一障害点の問題があります。一方で、古典的なヒューリスティクスは変化する状況への適応力に欠けます。本論文では、異種分散システムにおけるタスクスケジューリングのための分散型マルチエージェント深層強化学習(DRL-MADRL)フレームワークを提案します。問題を分散部分観測マルコフ決定過程(Dec-POMDP)として定式化し、NumPyのみを用いて実装する軽量なアクター・クリティック構成を開発します。これにより、大規模な機械学習フレームワークを必要とせず、リソース制約のあるエッジデバイスへの展開が可能になります。公開されているGoogle Cluster Traceデータセットから導出したワークロード特性を用いて、提案手法を100ノードの異種システム上で評価し、1エピソードあたり1,000タスクを30回の実験実行により処理します。実験結果は、ランダム基準に比べて平均タスク完了時間が15.6%改善(30.8s vs 36.5s)、エネルギー効率が15.2%向上(745.2 kWh vs 878.3 kWh)、SLA満足度が82.3%となり基準の75.5%を上回ったことを示します。これらの改善はいずれも統計的に有意です(p < 0.001)。軽量な実装では、NumPy、Matplotlib、およびSciPyのみが必要です。完全なソースコードと実験データは、https://github.com/danielbenniah/marl-distributed-scheduling で、完全な再現性のために提供されています。
分散システムにおける分散型タスクスケジューリング:深層強化学習アプローチ
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、負荷が動的に変化し、複数のQoS/SLA要件のバランスが必要となる、異種分散システムにおけるスケーラブルなタスクスケジューリングを扱い、中央集権型手法や適応性のないヒューリスティックの限界を示している。
- 分散型マルチエージェント深層強化学習フレームワーク(DRL-MADRL)を提案し、Dec-POMDPとして定式化し、軽量なアクター・クリティック設計を用いる。
- 実装はNumPyのみ(加えてMatplotlib/SciPy)で行い、学習およびスケジューリングを重いMLフレームワークなしで、リソース制約のあるエッジデバイスへ展開可能にすることを目指している。
- Google Cluster Traceのワークロード特性を用いた100ノード構成での実験では、平均完了時間が15.6%高速化され、エネルギー効率が15.2%向上し、SLA達成率も高く(82.3% vs 75.5%)、統計的に有意である(p < 0.001)。
- 著者らは、再現性のためにGitHub上で完全なソースコードおよび実験データを提供している。