Abstract
本研究では、多ユーザーmmWave MISOシステムにおける下りリンクのビームおよびレート適応を扱う。ここでは、複数の基地局(BS)がそれぞれ有限のコードブックからのアナログビームフォーミングを用いて、各ユーザ端末(UE)に対して専用のビームを割り当て、離散的なデータ伝送レートを用いる複数の単一アンテナUEへサービスを行う。BSは、ACK/NACKフィードバックに基づいて伝送成功を学習する。サービス目標を符号化するために、満足化スループット閾値 au_r を導入し、ビームとレートの同時適応を、ビーム—レートの組に関する組合せセミバンディットとして定式化する。この枠組みのもとで、SAT-CTS という軽量で閾値を意識した方策を提案する。これは、保守的な確信度推定と事後サンプリングを融合し、単に最大化するのではなく au_r を満たすことへ学習を導く。本研究の主たる理論的貢献は、満足化目的をもつ組合せセミバンディットに対して初めて有限時間の後悔(regret)上界を与える点である。 au_r が実現可能である場合には、累積する満足化後悔を、時間に依存しない定数を用いて目標に上から抑える。さらに au_r が実現不可能である場合には、SAT-CTS が、コミットされたCTSラウンドの外側における有限の期待遷移しか生じないことを示し、その後は、再起動されたCTSラウンドの後悔寄与の和によって後悔が支配され、O((\log T)^2) の標準後悔上界が得られる。実用面では、標準後悔と公平性に加えて、 au_r に対する累積満足化後悔を通じて性能を評価する。時間変動する疎なマルチパスチャネルを用いた実験では、SAT-CTS が一貫して満足化後悔を低減し、競争的な標準後悔を維持しつつ、ユーザ間で良好な平均スループットと公平性を達成することが示される。これは、チャネル状態知識なしであっても、フィードバック効率の高い学習が、QoS目標を満たすためにビームとレートを公平に割り当て得ることを示唆する。