eBandit:適応的ビデオストリーミングのためのカーネル駆動型強化学習

arXiv cs.AI / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユーザ空間のABRアルゴリズムが、最小RTTや瞬間的な配信レートといった重要なトランスポート層のシグナルを見落としているため、応答が遅れ、その結果プレイアウトバッファの損傷が悪化すると主張する。
  • eBanditは、ネットワーク監視とABRアルゴリズムの選択の両方をカーネル内へ移すためのLinuxカーネルフレームワークであり、eBPFを用いることで反応レイテンシを低減する。
  • eBanditは、sockopsプログラム内で軽量なε-greedy型のマルチアームバンディット(MAB)を用い、複数のABRヒューリスティックを評価し、ライブのTCPメトリクスから報酬を計算する。
  • 対立的な合成トレースにおいて、eBanditは累積QoEが416.3 ± 4.9を達成し、最良の静的ヒューリスティックを7.2%上回る。これは、敵対的な条件下でも頑健であることを示している。
  • 実世界の42セッションで、チャンクあたりの平均QoEが1.241となり、試験したポリシーの中で最高である。これは、カーネル内在のバンディット手法が多様なモバイル環境に一般化できることを示唆している。

要旨: ユーザ空間のAdaptive Bitrate (ABR) アルゴリズムは、最も重要なトランスポート層のシグナル(例えば最小RTTや瞬間的な配信レート)を目にすることができず、ネットワークの変化に対しては、損傷がすでにプレイアウトバッファへ伝播した後になって初めて応答します。私たちはeBPFを用いて、ネットワーク監視とABRアルゴリズム選択の両方をLinuxカーネル内へ移し替える枠組みeBanditを提示します。軽量なepsilon-greedy Multi-Armed Bandit (MAB)がsockopsプログラムの中で動作し、ライブなTCPメトリクスから導出した報酬に基づいて3つのABRヒューリスティックを評価します。敵対的な合成トレースにおいて、eBanditは累積QoEが416.3 \pm 4.9となり、最良の静的ヒューリスティックを7.2\%上回ります。実世界の42セッションでは、eBanditはチャンクあたりの平均QoEが1.241となり、すべての方策の中で最も高くなりました。これにより、カーネル常駐のバンディット学習が、異種のモバイル環境条件へと転移できることが示されます。