推論集約型回帰（Reasoning-Intensive Regression）

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストから微妙な数値スコアを推論する「推論集約型回帰（RiR）」を定義しており、これは感情や類似度などの標準的な回帰課題とは性質が異なると述べています。
4つの現実的なRiR問題をベンチマークとして提示し、「固定したLLMへのプロンプト」と「勾配降下によるTransformerエンコーダの微調整」の両方がRiRではしばしば苦戦する、という仮説を検証しています。
著者らは、バッチ内の振り返りを用いたプロンプト最適化とニューラルアンサンブル学習を組み合わせた軽量手法MENTATを提案しています。
実験では、MENTATが2つのベースライン手法に比べて最大65%の改善を示す一方で、今後のさらなる進展の余地が大きいことも示しています。

抽象: AI研究者および実務者は、大規模言語モデル（LLM）を、我々が推論集約的回帰（RiR）と呼ぶもの、すなわちテキストから微妙な数値スコアを推定（推論）することに、ますます適用するようになっている。感情分析や類似度分析といった標準的な言語回帰タスクとは異なり、RiRはしばしば、ルーブリックに基づくスコアリング、複雑な環境における高密度報酬のモデリング、ドメイン固有の検索といった、場当たり的（ad-hoc）なアプリケーションとして現れる。その場合、タスク固有の学習データや計算資源が限られている一方で、文脈のより深い分析が必要となることが多い。初期ベンチマークを確立するために、我々は4つの現実的な問題をRiRタスクとして定式化し、それを用いて、固定したLLMへのプロンプトと、勾配降下によってトランスフォーマーエンコーダを微調整する双方がRiRではしばしば苦戦する、という仮説を検証する。次に、バッチに基づく熟考型プロンプト最適化とニューラルアンサンブル学習を組み合わせた、単純で軽量な手法であるMENTATを提案する。MENTATは両方のベースラインに対して最大65%の改善を達成するが、今後の発展の余地はなお大きい。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

推論集約型回帰（Reasoning-Intensive Regression）

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」