RASPRef: 大規模推論モデルのためのリトリーバル統合型自己教師ありプロンプト洗練

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、出力の改善にとどまらず、大規模推論モデルに対してプロンプト自体を最適化する「RASPRef」という枠組みを提案する。これは Retrieval-Augmented Self-Supervised Prompt Refinement（リトリーバル統合型自己教師ありプロンプト洗練）である。
RASPRef は、関連する事例や、これまでに生成された推論トラジェクトリを検索して取得し、その後でマルチサンプル整合性、検証器からのフィードバック、モデル生成による批評といった自己教師ありの信号を用いて、プロンプトを反復的に洗練する。
GSM8K 形式の数学的推論タスクでの実験では、リトリーバルに導かれたプロンピングが、固定のプロンピングを行うベースラインよりも優れることが示される。
著者らは、リトリーバルの品質、トラジェクトリ選択、自己教師ありフィードバック信号の選択といった要因が、プロンプト洗練の有効性にどのように影響するかを分析する。
本研究は、プロンプトエンジニアリングが推論に焦点を当てた LLM の重要な性能レバーであり続けることを主張し、タスクやドメインを越えて注釈なしでプロンプトを改善するスケーラブルな手法を提案する。

要旨: DeepSeek R1 や OpenAI o1 のような推論に焦点を当てた言語モデルは、GSM8K、MATH、および多段（multi-hop）質問応答タスクを含む構造化推論ベンチマークにおいて高い性能を示してきました。しかし、それらの性能はプロンプトの作り方に対して非常に敏感であり、有効なプロンプトを設計することは通常、人手による試行錯誤の反復プロセスであって、タスクや領域をまたいでうまくスケールしません。この制限に対処するため、我々は、人手による注釈やタスク固有の教師あり（supervision）を必要とせずにプロンプトを改善する Retrieval-Augmented Self-Supervised Prompt Refinement (RASPRef) という枠組みを提案します。この手法は、関連する例と、以前に生成された推論の軌跡（reasoning trajectories）を取得し、さらに多サンプルの整合性、検証器（verifier）からのフィードバック、モデルが生成した批評（critiques）といった信号を用いて、プロンプトを反復的に洗練します。モデル出力の改善に主に焦点を当てた従来手法とは異なり、RASPRef はプロンプトそのものを最適化対象として直接扱い、取得に導かれる反復的な洗練プロセスによってそれを改善します。 GSM8K 形式の数学的推論タスクに対する実験では、取得に導かれるプロンピングが、静的プロンピングのベースラインと比べて性能を向上させることが示されました。さらに、取得の質、軌跡の選択、および自己教師あり（self-supervised）フィードバック信号が、プロンプト洗練の有効性にどのように影響し得るかについて議論します。これらの結果は、推論志向の言語モデルにとってプロンプト設計が依然として重要な要因であること、そして自己改善するプロンプトが推論性能を高めるための実用的でスケーラブルな戦略を提供し得ることを示唆しています。