強化学習でエキスパート級の配置を実現するには?
arXiv cs.AI / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、チップ配置におけるRLベース手法がエキスパートに及ばない主因は、訓練時の報酬が主に配線長最適化に偏っており、設計の暗黙的な目的全体を捉えきれていないことだと述べています。
- エキスパート品質の指針を報酬モデルとして学習するために、最終的なエキスパート配置結果からステップごとのエキスパート軌跡を推定し、その情報から学習を進める手法を提案しています。
- 推定した軌跡はデモンストレーションまたは選好(preferences)信号として用い、エキスパート結果の背後にある潜在的な報酬を捉えるモデルを訓練します。
- 実験では、単一の設計からでも効率よく学習でき、さらに未見のケースに対してもよく一般化することが示されています。
- 結果として、報酬設計を主要なボトルネックとして位置づけ、複雑な配置プロセスを手作業で明文化する代わりとなる実用的なアプローチを提示しています。

