C-MORAL:強化学習によるリインフォースメント・アラインメントを用いた制御可能な多目的分子最適化

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • この論文では、複数かつ競合する創薬設計制約のもとで、LLMを用いた分子最適化を制御可能にするための強化学習によるポストトレーニング枠組み「C-MORAL」を提案する。
  • C-MORALは、グループベースの相対最適化、異種の目的に対するプロパティスコアのアラインメント、連続的な非線形報酬集約により学習の安定性を高める。
  • C-MuMOInstructベンチマークで、C-MORALは従来の最先端手法を上回り、インドメイン/アウト・オブ・ドメインの双方で有効性を示す。
  • 成功最適化率(SOR)はINDタスクで48.9%、OODタスクで39.5%に到達し、足場(スキャフォールド)の類似性も概ね維持する。
  • 著者はコードとモデルを公開しており、制約付き多目的分子設計への応用や追試が可能になる。