学習不要の再生成パラダイム:コントラスト反射メモリに導かれた自己検証および自己改善
arXiv cs.CL / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、従来の検証・訂正や best-of-N 手法における「正確さ–効率性」のトレードオフに対処し、LLM の自己改善のための学習不要(training-free)の再生成アプローチを提案する。
- オフラインでキュレーションされたコントラスト反射メモリ(Reflection Memory: RM)を用いて推論中の修正ガイダンスを提供し、RM に導かれる自己検証と、RM に導かれてゼロから行う単一の再生成を組み合わせる。
- ゼロからの再生成は、高価な反復的な訂正ループや、大規模なマルチサンプル選択に依存せずに、誤った推論から抜け出すことを意図している。
- 9つのベンチマーク(アルゴリズム、推論、記号、ドメイン特化)において、小規模および大規模の両方の LLM で実験を行い、計算コストを低く保ちながら従来手法よりも性能が向上することを示す。




