モデルベース強化学習による焦点面ウェーブフロント制御

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ハビタブル候補の系外惑星を直接検出するための高コントラスト撮像を制限する非共通パス収差（NCPA）を扱う。明るい主星の近傍では、スペックルノイズや静的収差が観測を劣化させる。
そこで、非共通パス収差に対する政策最適化（PO4NCPA）というモデルベース強化学習手法を提案する。逐次的な位相多様度（phase diversity）と焦点面画像を用い、事前のシステム知識なしに位相補正を計算する。
地上望遠鏡の数値シミュレーションおよび、水蒸気によるシーイング（動的NCPA）を伴う赤外イメージャで検証した結果、PO4NCPAは静的・動的の双方のNCPAを頑健に補償できることが示される。
静的な状況では、コロナグラフを用いた場合にほぼ最適な焦点面光抑圧を達成し、またコロナグラフなしでもほぼ最適なストレール（Strehl）を得る。動的な状況では、参照手法の性能指標に一致する。
本アプローチはELT（超大型望遠鏡）の瞳（pupil）構成およびベクトル渦（vector vortex）コロナグラフにわたって汎用性を示し、フォトン／バックグラウンドノイズ下でも有効である。さらに、サブミリ秒の推論時間を実現しており、低次の大気補正をリアルタイムで行うのに適している。

Abstract

潜在的に居住可能な系外惑星の直接撮像は、非常に大きな望遠鏡（ELT）に搭載される高コントラスト撮像装置にとって、主要な科学ケースの1つである。そのような系外惑星の多くは母恒星の近傍を公転しており、観測は、速く移動する大気のスペックルおよび準静的な非共通パス収差（NCPA）によって制限される。従来のNCPA補正手法は、しばしば機械式ミラープローブを用いるが、これらは運用中の性能を損なう。本研究は、逐次的な位相ダイバーシティを活用することで、動的および静的の両方のNCPA誤差を自動的に検出・補正する、機械学習ベースのNCPA制御手法を提示する。AOに対する強化学習に関する先行研究を拡張し、焦点面制御へ適用する。新しいモデルベース強化学習アルゴリズムであるPolicy Optimization for NCPAs（PO4NCPA）は、焦点面画像を入力データとして解釈し、逐次位相ダイバーシティを通じて、事前のシステム知識なしに、非コロナグラフおよびポストコロナグラフのPSFの両方を最適化する位相補正を決定する。さらに、我々は、このアプローチの有効性を、地上の望遠鏡および、水蒸気によるシーイング（動的NCPA）の影響を受ける赤外イメージャに対して、静的NCPA誤差を数値シミュレーションすることで実証する。シミュレーションの結果、PO4NCPAは静的および動的NCPAの双方を頑健に補償することが示される。静的な場合、コロナグラフを用いるとほぼ最適な焦点面光抑圧を達成し、コロナグラフなしでもほぼ最適なストレールを達成する。動的NCPAでは、これらの指標において、モーダル最小二乗再構成と1ステップ遅延インテグレータの組合せと同等の性能を示す。本手法はELTパーチャー（瞳）、ベクトル渦コロナグラフ、および光子とバックグラウンドノイズ下でも有効性を維持する。PO4NCPAはモデルフリーであり、標準撮像だけでなく任意のコロナグラフにも直接適用できる。サブミリ秒の推論時間と性能も、HCIを超えた大気乱流に対するリアルタイムの低次補正に適している。