RL-ABC:加速器ビームライン制御のための強化学習

arXiv cs.LG / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • RLABCは、標準的なElegant加速器ビームライン設定を、最小限の追加RL開発で強化学習環境へ変換するオープンソースのPythonフレームワークです。
  • ビームラインチューニングをマルコフ決定過程として定式化する一般的手法を提供し、可変要素の直前に診断用ウォッチポイントを自動挿入して、ビーム統計・共分散・アパーチャ制約からなる57次元の状態表現を構築し、透過最適化のための報酬を設定可能にします。
  • ElegantとのSDDSベースのインターフェースを備え、Stable-Baselines3互換により複数のRLアルゴリズムを扱えます。
  • VEPP-5由来のテストビームラインで、DDPGエージェントが70.3%の粒子透過を達成し、微分進化など確立手法と同等の性能が示されました。
  • 設定ファイルや例ノートブックとともに公開されており、加速器ビームライン制御にRLを導入し、さらなる研究を進めやすくしています。

Abstract

粒子加速器のビームライン最適化は、高次元の制御問題であり、従来は大きな専門家の介入を要します。私たちは、RLABC(Reinforcement Learning for Accelerator Beamline Control)というオープンソースのPythonフレームワークを提示します。これは、標準的なElegantビームライン設定を自動的に強化学習環境へ変換します。RLABCは、SDDSベースのインターフェースを通じて、広く利用されているElegantビームダイナミクスシミュレーションコードと統合されており、最小限のRL固有の開発で、ビームライン最適化に最新のRLアルゴリズムを適用できるようにします。 主な貢献は、ビームライン調整をマルコフ決定過程として定式化するための一般的な手法です。RLABCは、チューニング可能な各要素の直前に診断用のウォッチポイントを挿入するために格子ファイルを自動前処理し、ビーム統計、共分散情報、アパーチャ制約から57次元の状態表現を構築し、透過率最適化のための設定可能な報酬関数を提供します。このフレームワークは、Stable-Baselines3との互換性により複数のRLアルゴリズムをサポートし、学習効率の改善のために段階学習戦略を実装しています。 VEPP-5投入複合施設に由来するテスト用ビームライン(11台の四重極と4台の双極子にまたがる37の制御パラメータ)での検証により、このフレームワークがRLベースの最適化を確実に可能にすることが示されました。Deep Deterministic Policy Gradientエージェントが70.3\%の粒子透過率を達成し、差分進化などの確立された手法と同等の性能を示しています。フレームワークの段階学習機能により、複雑な最適化問題を扱いやすいサブ問題へ分解でき、学習効率が向上します。構成ファイルやサンプルノートブックを含む完全なフレームワークは、採用を促進し、さらなる研究を支援するためのオープンソースソフトウェアとして利用可能です。