概要: 新たに登場する計算集約型のアプリケーションは、資源が制約されたモバイル端末に対して厳しいレイテンシ要件を課します。モバイル・エッジ・コンピューティング(MEC)は、タスクオフローディングによってこの課題に対処します。しかし、動的なタスク到着、時間変動するチャネル、そしてサーバキューの時空間的な結合により、効果的なポリシー設計は依然として困難です。従来のヒューリスティックは適応性に欠けます。一方、深層強化学習(DRL)は、一般化能力の制限とアーキテクチャの硬直性のため、ネットワークトポロジが変化するたびに再学習が必要です。大規模言語モデル(LLM)は意味推論能力を提供しますが、標準的な教師あり微調整(SFT)は、システムの長期的な進化を考慮せずに、当面のレイテンシを貪欲に最小化する近視眼的なポリシーを生みます。これらの制限に対処するため、MECシステムにおける先見的な意思決定を可能にする生成フレームワークCOMLLMを提案します。COMLLMは、グループ相対ポリシー最適化(GRPO)と、先読み協調シミュレーション(LACS)機構を統合します。LACSは、サーバキューのダイナミクスを共同でモデル化しながら、多段階のモンテカルロ・ロールアウトを実行します。これらのロールアウトを報酬設計に組み込むことで、現在の意思決定が将来のシステム状態に与える長期的な影響が捉えられます。実験結果は、COMLLMがほぼ最適なレイテンシを達成し、ロードバランシングの公平性も改善することを示しています。とりわけ、ゼロショットでのトポロジスケーラビリティがあり、小規模ネットワークで学習したモデルが、再学習なしでより大きく未観測のトポロジに汎化でき、SFT、DRL、およびヒューリスティックのベースラインよりも優れていることがわかります。
モバイルエッジコンピューティングにおけるタスクオフローディングのためのマルチターン推論LLM
arXiv cs.LG / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、動的な到着、時間変動する無線チャネル、結合されたサーバキューによって生じるレイテンシ制約の下で、モバイルエッジコンピューティングにおけるタスクオフローディングの課題に取り組む。
- 既存のヒューリスティックは適応的でなく、DRLはネットワークトポロジが変化すると再学習が必要になり得るうえ、汎化性能が不十分になり得ると主張する。
- 提案手法COMLLMは、生成型LLMベースの枠組みとしてGRPOに加え、Look-Ahead Collaborative Simulation(LACS)機構を用い、キューの進化を共同でモデル化するマルチステップのモンテカルロロールアウトを実行する。
- ロールアウトに基づく先読みを報酬設計に埋め込むことで、COMLLMは、即時のレイテンシを目先の最適化で詰めるのではなく、先見性のある方策を生成することを狙う。
- 実験では、より良い負荷分散の公平性と「ゼロショットのトポロジスケーラビリティ」を伴いつつ、ほぼ最適なレイテンシが報告される。再学習なしで未見のより大規模なネットワークトポロジへの汎化を示し、SFT、DRL、およびヒューリスティックのベースラインを上回る。



