報酬なし自己ファインチューニングエージェントによる適応型RANスライシング制御

arXiv cs.AI / 2026/3/12

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、手作りの報酬に依存するのではなく、環境と相互作用することでエージェントが継続的に学習できる、報酬なしの自己ファインチューニングフレームワークを提案する。
二視点の反省機構を用いて自律的な言語フィードバックを生成し、相互作用履歴から嗜好データセットを構築する。
続く嗜好ベースのファインチューニングプロセスを通じて長期的な経験をモデルのパラメータへ蒸留し、長期的な制御能力を高める。
本フレームワークは動的なRANスライシング課題で評価され、スペクトル効率、サービス品質、再構成の安定性の間のトレードオフを含む、揮発性ネットワーク条件下の複雑な多目的制御シナリオである。
実験結果は、サンプル効率、安定性、および複数指標の最適化の観点で、標準的なRLベースラインと既存のLLMベースエージェントを上回ることを示しており、AIネイティブなネットワークインフラの可能性を示している。

本文: arXiv:2603.10564v1 アナウンスタイプ: new 要旨: AIネイティブネットワークシステムへの生成型AIモデルの統合は、自律的で適応的な制御を実現する変革的な道を提供する。しかし、このようなモデルを連続制御タスクへ適用するには、有限の文脈ウィンドウ、明示的な報酬信号の欠如、長い文脈の劣化といった内在的なアーキテクチャ上の制約が障害となる。本論文は、堅牢な連続制御を解き放つ鍵は、エージェントがプロンプトベースの記憶に頼るのではなく、経験を内部化してパラメータへ蒸留する能力をエージェントに持たせることだと提案する。これを実現するため、環境との直接的な相互作用を通じてエージェント系が継続的に学習できる新規の自己ファインチューニングフレームワークを提案し、手作りの報酬を不要とする。本フレームワークは、二視点の反省機構を実装し、相互作用履歴から嗜好データセットを構築する自律的な言語フィードバックを生成する。その後の嗜好ベースのファインチューニングプロセスは、長期的な経験をモデルのパラメータへ蒸留する。本アプローチを、動的な無線アクセスネットワーク（RAN）スライシング課題、スペクトル効率、サービス品質、再構成の安定性の間の鋭いトレードオフを揮発性ネットワーク条件下で解決する必要がある、難易度の高い多目的制御問題として評価する。実験結果は、サンプル効率、安定性、およびマルチメトリック最適化の点で、標準的な強化学習（RL）ベースラインと既存の大規模言語モデル（LLM）ベースのエージェントを上回ることを示している。これらの知見は、連続制御タスクにおける自己改善型生成エージェントの潜在を示しており、将来のAIネイティブなネットワークインフラの道を拓く。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

MCPとは何ですか？

Dev.to

報酬なし自己ファインチューニングエージェントによる適応型RANスライシング制御

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

MCPとは何ですか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer