テキスト埋め込みによるドメイン知識ゼロでのアルゴリズム選択

arXiv cs.LG / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文では、手作りのインスタンス特徴量を用いずに事前学習済みのテキスト埋め込みで置き換える、特徴量フリーのアルゴリズム選択手法「ZeroFolio」を提案する。
  • ZeroFolioは、問題インスタンスをプレーンテキストとして読み取り、事前学習済みモデルで埋め込み、埋め込み空間上で重み付きk近傍法によりアルゴリズムを選択する。
  • 著者らは、タスク固有の学習やドメイン知識なしでも、事前学習済み埋め込みが問題インスタンスを効果的に識別できることを主張し、この3ステップの手順を多様な領域へ汎用適用できるとしている。
  • 7つのドメイン(SAT、MaxSAT、QBF、ASP、CSP、MIP、グラフ問題)を含むASlibの11シナリオでの実験では、ZeroFolioは手作り特徴量で学習したランダムフォレストに対し、単一固定設定で10/11、2シードの投票で全11シナリオで上回った。
  • アブレーション研究では、逆距離重み付け、ラインシャッフル、マンハッタン距離が重要な設計要素であることが示され、両者が拮抗する場合には手作り特徴量とのソフト投票によるさらなる改善も報告されている。

概要: 手作りのインスタンス特徴量を、事前学習済みのテキスト埋め込み(embedding)で置き換えることで、特徴量を用いない(feature-free)アルゴリズム選択のアプローチを提案します。提案手法であるZeroFolioは、3つのステップで進みます。まず、生のインスタンスファイルをプレーンテキストとして読み取り、次に事前学習済みの埋め込みモデルでそれを埋め込み、そして重み付きk近傍(weighted k-nearest neighbors)によってアルゴリズムを選択します。本アプローチの鍵は、事前学習済み埋め込みが、ドメイン知識やタスク固有の学習を一切必要とせずに、問題インスタンスを区別できる表現を生成するという観察です。これにより、同一の3ステップのパイプライン(シリアライズ、埋め込み、選択)を、テキストベースのインスタンス形式を持つ多様な問題領域に対して適用できます。7領域(SAT、MaxSAT、QBF、ASP、CSP、MIP、およびグラフ問題)にまたがる11のASlibシナリオで本手法を評価します。実験の結果、このアプローチは、単一の固定設定において11シナリオ中10で、手作り特徴量で学習したランダムフォレストを上回りました。また、2シードの投票では11シナリオすべてで上回り、差はしばしば大きなものでした。アブレーション研究では、逆距離重み付け、行シャッフル、マンハッタン距離が主要な設計上の選択であることが示されました。両方のセレクタが競合し得るシナリオでは、ソフト投票によって埋め込みと手作り特徴量を組み合わせることで、さらなる改善が得られます。