抽象: AI研究者および実務者は、大規模言語モデル(LLM)を、我々が推論集約的回帰(RiR)と呼ぶもの、すなわちテキストから微妙な数値スコアを推定(推論)することに、ますます適用するようになっている。感情分析や類似度分析といった標準的な言語回帰タスクとは異なり、RiRはしばしば、ルーブリックに基づくスコアリング、複雑な環境における高密度報酬のモデリング、ドメイン固有の検索といった、場当たり的(ad-hoc)なアプリケーションとして現れる。その場合、タスク固有の学習データや計算資源が限られている一方で、文脈のより深い分析が必要となることが多い。初期ベンチマークを確立するために、我々は4つの現実的な問題をRiRタスクとして定式化し、それを用いて、固定したLLMへのプロンプトと、勾配降下によってトランスフォーマーエンコーダを微調整する双方がRiRではしばしば苦戦する、という仮説を検証する。次に、バッチに基づく熟考型プロンプト最適化とニューラルアンサンブル学習を組み合わせた、単純で軽量な手法であるMENTATを提案する。MENTATは両方のベースラインに対して最大65%の改善を達成するが、今後の発展の余地はなお大きい。
推論集約型回帰(Reasoning-Intensive Regression)
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストから微妙な数値スコアを推論する「推論集約型回帰(RiR)」を定義しており、これは感情や類似度などの標準的な回帰課題とは性質が異なると述べています。
- 4つの現実的なRiR問題をベンチマークとして提示し、「固定したLLMへのプロンプト」と「勾配降下によるTransformerエンコーダの微調整」の両方がRiRではしばしば苦戦する、という仮説を検証しています。
- 著者らは、バッチ内の振り返りを用いたプロンプト最適化とニューラルアンサンブル学習を組み合わせた軽量手法MENTATを提案しています。
- 実験では、MENTATが2つのベースライン手法に比べて最大65%の改善を示す一方で、今後のさらなる進展の余地が大きいことも示しています。



