LLMプロンプト対戦オプティマイザ：ラベル不要の効率的プロンプト最適化

arXiv stat.ML / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コストのかかる教師ありの正解ラベルではなく、LLMジャッジによるペアワイズ（対）嗜好フィードバックに依存する、ラベル不要のLLMプロンプト最適化のためのサンプル効率的フレームワーク「Prompt Duel Optimizer（PDO）」を提案する。
PDOはプロンプト探索をデュエリング・バンディット問題として定式化し、固定されたジャッジ予算の範囲内で最も情報量の大きいプロンプト同士の比較を選ぶためにDouble Thompson Samplingを用いる。
さらに、上位パフォーマーに導かれた突然変異（mutation）を採用して候補プロンプト集合を反復的に拡張し、弱いプロンプトを剪定（pruning）することで効率を高める。
BIG-bench Hard（BBH）およびMS MARCOでの実験により、PDOがラベル不要のベースラインよりも優れたプロンプトを見つけ、比較予算が限られている場合でも質とコストの良好なトレードオフを達成することが示される。

Abstract

大規模言語モデル（LLM）はプロンプトに非常に敏感ですが、ほとんどの自動プロンプト最適化（APO）手法は、入手コストが高い正解参照（例：ラベル付き検証データ）へのアクセスを前提としています。私たちは、LLMジャッジによる対（ペア）ごとの嗜好フィードバックに基づくラベルなしプロンプト最適化のための、サンプル効率の高い枠組みであるPrompt Duel Optimizer（PDO）を提案します。PDOはプロンプト選択をデュエリング・バンディット問題として定式化し、（i）固定されたジャッジ予算のもとで有益な比較を優先するためのDouble Thompson Samplingと、（ii）より高い性能を示した候補に導かれる突然変異（mutation）によって候補プールを拡張しつつ弱いプロンプトを刈り込むことを組み合わせます。BIG-bench Hard（BBH）およびMS MARCOでの実験により、PDOはラベルなしベースラインよりも一貫してより強いプロンプトを特定できることが示されました。また、比較予算が制約された状況下で、良好な品質—コストのトレードオフを提供します。

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

日経XTECH

LLMプロンプト対戦オプティマイザ：ラベル不要の効率的プロンプト最適化

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ