ニューラル組合せ最適化のためのオフライン・ディシジョン・トランスフォーマ:巡回セールスマン問題でヒューリスティックを上回る

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、巡回セールスマン問題(TSP)などのNP困難問題を対象として、ディシジョン・トランスフォーマをニューラル組合せ最適化に適応するオフライン強化学習(Offline RL)手法を提案する。
  • オンラインRLの代わりに、ヒューリスティック解のデータセットから戦略を学習し、模倣を超えて新しい方策を合成することで、ヒューリスティックよりも優れた性能を目指す。
  • この手法には、ノード選択のためのインスタンス依存で変動する行動空間を扱うためのポインタネットワークが組み込まれており、さらに、最適値がインスタンスごとに大きく異なる状況でもReturn-to-Goの条件付けを改善するためにexpectile回帰を用いる。
  • 実験では、得られる巡回路が、学習時に対して用いた4つの古典的なTSPヒューリスティックより一貫して高品質であることが報告されており、オフラインRLが既存の領域知識を活用し、それを超えられる可能性を示唆している。

要旨: トラベリング・セールスマン問題のような組合せ最適化問題は産業において重要であるにもかかわらずNP困難です。ニューラル組合せ最適化は有望であることが示されていますが、そのオンライン強化学習(RL)への依存は導入を妨げるとともに、数十年にわたるアルゴリズム知識を十分に活用できていません。私たちは、オフラインRLフレームワークであるDecision Transformerを適用することで、これらの制約を解決します。ヒューリスティック解のデータセットから直接より優れた戦略を学習し、単に模倣するだけでなく、それらを合成し、さらに上回ることを目指します。具体的には、(i)ポインタネットワークを統合して、ノード選択のインスタンス依存の可変な行動空間を扱い、(ii)Return-to-Goの楽観的な条件付けに重要なexpectile回帰を用います。これは、最適値が大きく変動するインスタンスにとって特に重要です。実験の結果、提案手法は学習対象である4つの古典的ヒューリスティックよりも一貫して高品質な巡回路を生成し、オフラインRLが既存のドメイン知識に内在する性能を解き放ち、さらに超える可能性を示しています。