ContraPrompt:二項(dyadic)推論トレース分析によるコントラスト的プロンプト最適化

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ContraPromptは、同一入力に対して失敗からフィードバック付きの再試行で成功した際の「二つの推論トレース」を比較し、最適化に効く信号を抽出する新しいプロンプト最適化手法です。
  • 先行研究のようにプロンプト差分や単発の失敗だけを対比するのではなく、途中の推論過程そのものを対比し、共有要素(モデル・入力・ベースプロンプト)が揃うことで残差が「推論戦略」と「追記された誤りフィードバック」を反映するようにします。
  • 人手によるアノテーションなしで対比データを自動生成するために、計測付きのマルチアテンプト型エージェントリトライ・ループを用い、その後に抽出したルールを入力特性に応じた意思決定木で整理してルーティングします。
  • 4つの推論・コンプライアンス系ベンチマークで、ContraPromptはGEPAを全タスクで上回り(例:HotPotQAで+8.29 pp、GDPR-Benchで+2.21 pp)、ダイアディック・トレースのコントラスト性を外すアブレーションでは大きな性能低下(相対平均-16%)が確認されています。
  • さらにブラックボックス最適化問題やFiNER-139の金融NERでも効果が示され、同一予算下でGEPAに勝つのは53問中11問で、金融の会計基準カテゴリーに整合したNERでは未最適化ベースライン比+7.77 pp、GEPA比+1.94 ppの改善が報告されています。

概要: プロンプト最適化手法は、個々の失敗を孤立して分析するか、あるいは複数の例にまたがってプロンプトの変種を比較するかのいずれかであり、同一入力に対して成功と失敗を分ける思考過程(推論プロセス)にはアクセスできない状態で、単一の実行トレースに基づいて動作します。私たちはContraPromptを導入します。これは、「モデルが1度失敗した後、フィードバック付きでのリトライでは成功する」場合、その2つのチェーン・オブ・ソート(思考手順)トレースの差分が、従来手法では捉えられていない最適化シグナルになる、という観察に基づいています。従来の対比学習(コントラスト)手法と異なり、私たちは完全な中間推論プロセスを比較します。2つのトレースは、モデル・入力・ベースとなるプロンプトを共有しているため、残りの差分は推論戦略の違いと、追記されたエラー・フィードバックの反映を表します。これを二者間(dyadic)推論トレース分析と呼びます。複数回試行による解決フェーズは、計測可能(インストゥルメント化)なエージェント的リトライ・ループであり、人手による注釈なしで対比データを自動生成します。抽出されたルールは、観測可能な入力特性に基づいて指示を振り分ける、入力を考慮した意思決定木として整理されます。4つの推論およびコンプライアンスのベンチマークにおいて、ContraPromptはGEPA(Agrawal et al., 2026)に対して4つすべてで上回り、絶対的な改善幅は、HotPotQAで+8.29 pp(相対+20.8%)、GDPR-Benchで+2.21 pp(相対+18.2%)、GPQA Diamondで+7.14 pp(相対+10.6%)、BBHで+0.74 pp(相対+0.85%)です。アブレーション実験により、二者間トレースの対比性が重要な構成要素であることが確認されており、それを除去すると相対平均で-16%の低下が見られます。予算を同等にした条件で、53のEvalSetブラックボックス最適化問題において、ContraPromptはGEPAより11勝、41分、1敗です。FiNER-139の金融固有表現認識(Loukas et al., 2022)では、ContraPromptは最適化なしのベースラインに対して+7.77 pp(相対+11.6%)を達成し、またGEPAに対しては+1.94 pp(相対+2.66%)を達成します。分岐条件は、標準的な米国GAAPの金融商品カテゴリと整合しています。