組合せ満足（satisficing）バンディットによるマルチユーザーmmWaveのビーム・レート適応

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、有限のビームコードブックを用いるアナログビームフォーミングとACK/NACKフィードバックによる学習を前提に、mmWaveマルチユーザーMISOシステムでの下りリンクのビームおよび離散レート適応を扱います。
ビームとレートの同時選択を、単なる最大化ではなく、所望のスループット目標（品質・サービス要件）を満たす「満足化（satisficing）」目的を持つ組合せセミバンディットとして定式化します。
提案手法SAT-CTSは軽量で閾値（\tau_r）を意識した設計で、保守的な信頼推定と事後サンプリングを組み合わせ、学習をスループット要件の達成に向けます。
組合せセミバンディットに対する満足化目的の有限時間（finite-time）損失（regret）境界として初の理論的貢献を示し、目標閾値が実現可能な場合と非実現可能な場合の両方を扱います。
時変の疎な多重経路チャネルでの実験では、SAT-CTSが\tau_rに対する満足化regretを一貫して低減しつつ標準regretも競争力を維持し、ユーザー間の公平性も改善することが示されます（チャネル状態情報なしで、QoS目標に沿った公平な割当を実現）。

Abstract

本研究では、多ユーザーmmWave MISOシステムにおける下りリンクのビームおよびレート適応を扱う。ここでは、複数の基地局（BS）がそれぞれ有限のコードブックからのアナログビームフォーミングを用いて、各ユーザ端末（UE）に対して専用のビームを割り当て、離散的なデータ伝送レートを用いる複数の単一アンテナUEへサービスを行う。BSは、ACK/NACKフィードバックに基づいて伝送成功を学習する。サービス目標を符号化するために、満足化スループット閾値

au_r

を導入し、ビームとレートの同時適応を、ビーム—レートの組に関する組合せセミバンディットとして定式化する。この枠組みのもとで、SAT-CTS という軽量で閾値を意識した方策を提案する。これは、保守的な確信度推定と事後サンプリングを融合し、単に最大化するのではなく

au_r

を満たすことへ学習を導く。本研究の主たる理論的貢献は、満足化目的をもつ組合せセミバンディットに対して初めて有限時間の後悔（regret）上界を与える点である。

au_r

が実現可能である場合には、累積する満足化後悔を、時間に依存しない定数を用いて目標に上から抑える。さらに

au_r

が実現不可能である場合には、SAT-CTS が、コミットされたCTSラウンドの外側における有限の期待遷移しか生じないことを示し、その後は、再起動されたCTSラウンドの後悔寄与の和によって後悔が支配され、

O((\log T)^2)

の標準後悔上界が得られる。実用面では、標準後悔と公平性に加えて、

au_r

に対する累積満足化後悔を通じて性能を評価する。時間変動する疎なマルチパスチャネルを用いた実験では、SAT-CTS が一貫して満足化後悔を低減し、競争的な標準後悔を維持しつつ、ユーザ間で良好な平均スループットと公平性を達成することが示される。これは、チャネル状態知識なしであっても、フィードバック効率の高い学習が、QoS目標を満たすためにビームとレートを公平に割り当て得ることを示唆する。