自動プロンプト最適化のための汎化可能な自己進化メモリ

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一の固定プロンプトを特定のタスクに当てはめることではなく、異なるクエリにわたって一般化できるプロセスとして自動プロンプト最適化を捉え直す提案を行う。
  • MemAPO はデュアルメモリ(2つのメモリ)システムを用いる。成功した推論トラジェクトリから抽出した再利用可能な戦略テンプレートを保存し、さらに再発する失敗のパターンを捉える構造化された誤り(エラー)情報を保存する。
  • 新しいプロンプトに対しては、関連する戦略と既知の失敗パターンの両方を取得し、過去の誤りを避けつつ効果的な推論を促すように改良されたプロンプトを合成する。
  • 自己反省とメモリ編集を反復することで、MemAPO はメモリを継続的に更新し、タスクごとに最初からやり直すことなく最適化性能を時間とともに向上させられるようにする。
  • 複数のベンチマークでの実験により、従来のプロンプト最適化手法に対して一貫した改善が得られ、かつ最適化コストが低いことが報告されている。

Abstract

自動プロンプト最適化は、大規模言語モデル(LLM)を下流タスクに適応させるための有望な手法である。しかし、既存の手法は一般に、特定の固定タスクに特化した“ある特定のプロンプト”を探索することにとどまっている。このパラダイムは、異質なクエリに対する汎化性を制限し、さらにモデルが時間の経過とともに再利用可能なプロンプト知識を蓄積していくことを妨げる。本論文では、メモリ駆動フレームワークである MemAPO を提案する。MemAPO は、プロンプト最適化を一般化可能で自己進化する経験の蓄積として再概念化する。MemAPO はデュアル・メモリ機構を維持し、有効な推論の軌跡を再利用可能な戦略テンプレートへ蒸留する一方、誤った生成を構造化されたエラーパターンとして整理し、反復する失敗モードを捉える。新しいプロンプトが与えられると、フレームワークは関連する戦略と失敗パターンの双方を想起して、効果的な推論を促進しつつ、既知の誤りを抑制するプロンプトを構成する。反復的な自己省察とメモリ編集によって、MemAPO はそのメモリを継続的に更新し、各タスクごとにゼロからやり直すのではなく、プロンプト最適化が時間とともに改善されるようにする。多様なベンチマークでの実験により、MemAPO は代表的なプロンプト最適化のベースラインを一貫して上回り、最適化コストを大幅に削減できることが示される。