グラフベースの階層型強化学習による高性能熱力学サイクルの自動共同設計

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、サイクル構造を、文法制約付きのノードとエッジで表現することで、熱力学サイクルの共同設計を自動化するための、グラフベースの階層型強化学習フレームワークを提案する。
  • グラフからの安定したデコードを可能にし、最適化の過程でグローバルパラメータを共同で解決するために、深層学習による熱物理サロゲートを用いる。
  • マネージャ—ワーカ型の強化学習設定により探索を行う。高レベルのマネージャは構造の進化を探索し、候補となる構成を提案する。一方、低レベルのワーカはパラメータを最適化し、性能に基づく報酬を返す。
  • ヒートポンプおよびヒートエンジンのケーススタディでは、本手法は古典的な構成を再現するとともに、18件の新規ヒートポンプサイクルと21件の新規ヒートエンジンサイクルを発見する。
  • 報告された新規設計は、古典的ベースラインに対してヒートポンプで4.6%、ヒートエンジンで133.3%の性能向上を示しており、専門家主導の設計よりも効率とスケーラビリティが改善されていることを示唆する。

Abstract

熱力学サイクルは、エネルギー変換システムの有効性を決定する上で極めて重要である。専門家の知見に依存する、または網羅的な列挙に頼る従来の設計手法は非効率であり、さらにスケーラビリティに欠けるため、高性能なサイクルの発見が制約されてきた。本研究では、熱力学サイクルにおける構造パラメータの共同設計のための、グラフベースの階層型強化学習アプローチを提案する。これらのサイクルはグラフとして符号化され、構成要素と接続は文法的制約に従ってノードとエッジとして表現される。深層学習に基づく熱物理サロゲートにより、安定したグラフ復号とグローバルパラメータの同時解決が可能となる。この基盤の上で、高レベルのマネージャが構造の進化を探索し候補配置を提案する一方、低レベルのワーカーがパラメータを最適化し、検索を高性能領域へ導くための性能報酬を提供する、階層型強化学習フレームワークを開発する。グラフ表現、熱物理サロゲート、およびマネージャ・ワーカー学習を統合することで、本手法は符号化、復号、共同最適化のための完全自動化パイプラインを確立する。ヒートポンプおよびヒートエンジンサイクルを事例として用いた結果、提案手法は従来のサイクル構成を再現するだけでなく、それぞれ18件および21件の新規なヒートポンプサイクルとヒートエンジンサイクルを新たに見出すことを示した。従来サイクルと比較して、新規構成はそれぞれ4.6%および133.3%の性能向上を示し、従来の設計を上回っている。本手法は効率と幅広い適用可能性の両立を効果的に図り、専門家主導の熱力学サイクル設計に対する実用的でスケーラブルなインテリジェントな代替手段を提供する。