報酬なし自己ファインチューニングエージェントによる適応型RANスライシング制御
arXiv cs.AI / 2026/3/12
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、手作りの報酬に依存するのではなく、環境と相互作用することでエージェントが継続的に学習できる、報酬なしの自己ファインチューニングフレームワークを提案する。
- 二視点の反省機構を用いて自律的な言語フィードバックを生成し、相互作用履歴から嗜好データセットを構築する。
- 続く嗜好ベースのファインチューニングプロセスを通じて長期的な経験をモデルのパラメータへ蒸留し、長期的な制御能力を高める。
- 本フレームワークは動的なRANスライシング課題で評価され、スペクトル効率、サービス品質、再構成の安定性の間のトレードオフを含む、揮発性ネットワーク条件下の複雑な多目的制御シナリオである。
- 実験結果は、サンプル効率、安定性、および複数指標の最適化の観点で、標準的なRLベースラインと既存のLLMベースエージェントを上回ることを示しており、AIネイティブなネットワークインフラの可能性を示している。
本文: arXiv:2603.10564v1 アナウンスタイプ: new
要旨:
AIネイティブネットワークシステムへの生成型AIモデルの統合は、自律的で適応的な制御を実現する変革的な道を提供する。しかし、このようなモデルを連続制御タスクへ適用するには、有限の文脈ウィンドウ、明示的な報酬信号の欠如、長い文脈の劣化といった内在的なアーキテクチャ上の制約が障害となる。本論文は、堅牢な連続制御を解き放つ鍵は、エージェントがプロンプトベースの記憶に頼るのではなく、経験を内部化してパラメータへ蒸留する能力をエージェントに持たせることだと提案する。これを実現するため、環境との直接的な相互作用を通じてエージェント系が継続的に学習できる新規の自己ファインチューニングフレームワークを提案し、手作りの報酬を不要とする。
本フレームワークは、二視点の反省機構を実装し、相互作用履歴から嗜好データセットを構築する自律的な言語フィードバックを生成する。 その後の嗜好ベースのファインチューニングプロセスは、長期的な経験をモデルのパラメータへ蒸留する。
本アプローチを、動的な無線アクセスネットワーク(RAN)スライシング課題、スペクトル効率、サービス品質、再構成の安定性の間の鋭いトレードオフを揮発性ネットワーク条件下で解決する必要がある、難易度の高い多目的制御問題として評価する。
実験結果は、サンプル効率、安定性、およびマルチメトリック最適化の点で、標準的な強化学習(RL)ベースラインと既存の大規模言語モデル(LLM)ベースのエージェントを上回ることを示している。これらの知見は、連続制御タスクにおける自己改善型生成エージェントの潜在を示しており、将来のAIネイティブなネットワークインフラの道を拓く。


