強化学習でエキスパート級の配置を実現するには?

arXiv cs.AI / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、チップ配置におけるRLベース手法がエキスパートに及ばない主因は、訓練時の報酬が主に配線長最適化に偏っており、設計の暗黙的な目的全体を捉えきれていないことだと述べています。
  • エキスパート品質の指針を報酬モデルとして学習するために、最終的なエキスパート配置結果からステップごとのエキスパート軌跡を推定し、その情報から学習を進める手法を提案しています。
  • 推定した軌跡はデモンストレーションまたは選好(preferences)信号として用い、エキスパート結果の背後にある潜在的な報酬を捉えるモデルを訓練します。
  • 実験では、単一の設計からでも効率よく学習でき、さらに未見のケースに対してもよく一般化することが示されています。
  • 結果として、報酬設計を主要なボトルネックとして位置づけ、複雑な配置プロセスを手作業で明文化する代わりとなる実用的なアプローチを提示しています。

Abstract

チップ配置は物理設計における重要なステップです。強化学習(RL)ベースの手法は近年登場したものの、その訓練は主としてワイヤ長の最適化に焦点が当てられているため、しばしば専門家品質のレイアウトを達成できません。私たちは、専門家との性能ギャップの主因が報酬設計にあることを特定し、複雑なプロセスを形式化するのではなく、専門家レイアウトから直接学習して報酬モデルを導出することでこれを回避します。提案手法は、最終の専門家レイアウトから出発して、段階的な専門家の軌跡を推定します。これらの軌跡をデモンストレーションまたは選好として用いることで、専門家の結果に潜む暗黙の報酬を捉えるモデルを訓練します。実験により、私たちの枠組みは単一の設計からでも効率的に学習でき、未見のケースにも良好に一般化できることが示されます。