概要: 大規模言語モデル(LLM)は複雑な推論タスクにおいて強力な能力を示している一方で、Chain-of-Thought(CoT)のような近年のプロンプト戦略は、複雑な論理問題を扱う際の性能をさらに引き上げてきました。これらの進歩にもかかわらず、高品質な推論は依然として手作業による静的プロンプトに大きく依存しており、復号(デコーディング)の設定やタスク分布に影響を受けるため、性能の変動や限定的な転移可能性が生じます。既存の自動プロンプト最適化手法は通常、単一エージェントによるローカル探索を採用しており、プロンプトと復号のハイパーパラメータを統一された枠組みの中で同時に最適化して、安定したグローバルな改善を達成できていません。この制約に対処するため、我々は複雑推論のための動的プロンプト最適化フレームワークであるAgent-GWOを提案します。具体的には、プロンプトテンプレートと復号ハイパーパラメータを、継承可能なエージェント設定として統一します。Grey Wolf Optimizer(GWO)のリーダー・フォロワー機構を活用することで、残りのエージェントによる協調的な更新を導くために、3つのリーダーエージェント(\alpha、\beta、\delta)を自動的に選択し、推論設定として頑健な最適解へ向けた反復的な収束を可能にします。この最適な推論設定は推論(インファレンス)にシームレスに統合できます。多様なLLMバックボーンにまたがる、複数の数学およびハイブリッド推論ベンチマークに対する大規模な実験の結果、Agent-GWOは既存のプロンプト最適化手法に比べて、精度と安定性の両面で一貫して改善することが示されました。コードは公開されます。
Agent-GWO:大規模言語モデルにおける動的プロンプト最適化のための協調エージェント
arXiv cs.AI / 2026/4/22
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文では、従来の単一エージェントによる局所探索ではなく、LLMのプロンプトテンプレートとデコーディング・ハイパーパラメータを同時に最適化する動的フレームワーク「Agent-GWO」を提案します。
- プロンプトとデコーディング設定を「継承可能なエージェント設定」として扱い、Grey Wolf Optimizer(GWO)のリーダー–フォロワー方式により3人のリーダー(α、β、δ)が残りのエージェントの更新を導くことで、反復的に頑健な最適推論設定へ収束させます。
- マニュアルの静的プロンプトやデコーディング条件がタスクやモデルにまたがって性能の揺らぎを生みやすく、転移性が限定されるという課題に焦点を当てています。
- 数学系およびハイブリッド推論ベンチマークを複数のLLMバックボーンで評価した結果、既存のプロンプト最適化手法よりも精度と安定性が向上することを示しています。
- 著者らはコードを公開予定であると述べており、他の研究者や開発者が導入・検証しやすくなります。



