ハンドオーバー最適化のためのダブルグラフ多エージェント強化学習

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来はヒューリスティックで設定されるセル・個別オフセット（Cell Individual Offsets: CIO）を調整することに焦点を当て、セルラー・ハンドオーバー（HO）の最適化に取り組む。これらはネットワーク規模では互いに強く結合してしまう。
ネットワークのデュアルグラフ上で、ハンドオーバー最適化を分散部分観測マルコフ決定過程（Dec-POMDP）としてモデル化する。各エージェントは近傍セル対に対するCIOを制御し、局所的に集約されたKPI観測を用いる。
著者らは、離散型の多エージェント強化学習手法TD3-D-MAを提案する。デュアルグラフ上で共有パラメータのGNNアクターを用い、さらに領域ごとのダブル・クリティックを導入することで、密な配備におけるクレジット割当てを改善する。
ns-3のシステムレベル・シミュレータで、通信トラフィックの多様なレジームやネットワークトポロジにわたって、オペレータ相当のパラメータを用いた実験を行い、従来のHOヒューリスティックおよび集中型RLベースラインに対してスループット向上を示す。
本手法は、トポロジやトラフィックの変化に対する頑健性と汎化性を示しており、静的なルールベースの調整と比べて実運用における耐性が高いことを示唆している。

要旨: 携帯通信ネットワークにおける HandOver（HO）制御は、伝統的にルールベースのヒューリスティックにより設定される一連のHO制御パラメータによって支配される。HO最適化における重要なパラメータは、隣接する各セル対ごとに定義され、HOの発火判断をバイアスするために用いられるセル・インディビデュアル・オフセット（Cell Individual Offset: CIO）である。ネットワーク規模では、CIOの調整は密に結合した問題となる。すなわち、小さな変更が複数の隣接関係にまたがるモビリティのフローを別方向へ誘導し得ること、また静的なルールは非定常なトラフィックやモビリティ下ではしばしば劣化する。そこで本研究では、CIOのペアワイズ構造を活用し、ネットワークのデュアルグラフ上でHO最適化を分散型部分観測マルコフ決定過程（Decentralized Partially Observable Markov Decision Process: Dec-POMDP）として定式化する。この表現では、各エージェントが隣接セル対のCIOを制御し、デュアルグラフの局所近傍で集約された主要業績評価指標（Key Performance Indicators: KPI）を観測する。これにより、グラフ局所性を保ちつつ、スケーラブルな分散意思決定を可能にする。この定式化を基に、TD3-D-MA を提案する。これは、TD3アルゴリズムの離散型マルチエージェント強化学習（Multi-Agent Reinforcement Learning: MARL）変種であり、デュアルグラフ上で動作する共有パラメータのグラフニューラルネットワーク（Graph Neural Network: GNN）アクターと、学習のための領域単位の二重クリティックを用いることで、密な配備におけるクレジット割当てを改善する。 TD3-D-MA を、ns-3 のシステムレベル・シミュレータ上で評価する。そこでは、現実のネットワーク事業者のパラメータを用い、異種のトラフィック環境とネットワークトポロジに対して構成する。結果は、TD3-D-MA が、標準的なHOヒューリスティックおよび集中型RLのベースラインと比べてネットワークスループットを向上させ、さらにトポロジやトラフィックの変化に対して頑健に一般化することを示している。