大規模推論モデルの「システム1的思考」能力を探る

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模推論モデル（LRM）の「システム1的思考」を調査し、少ないトークン数で直感的かつ効率的に応答する能力に焦点を当てています。
S1-Benchとして、モデルには難しくないシステム1質問を対象にした、多分野・多言語のベンチマークを提案しています。
28のLRMを対象にした実験では、システム1型の問題に対して期待に反して、精度と効率の両面で不足が見られました。
既存の効率的推論手法は、単純な質問への汎化がうまくいかないか、効率のために性能を犠牲にすることがあると分かりました。
LRMsには、早い段階で困難さへの気づきが現れる一方で自信が低いこと、また難易度が隠れ状態に暗黙に符号化されていることが示唆されています。

Abstract

本論文では、大規模推論モデル（LRMs）の「システム1」的な思考能力、すなわち最小限のトークン使用で効率的に応答するための直観的な能力を探究する。既存のLRMsは長い推論鎖に依存し複雑なタスクで優れている一方で、そのシステム1的な思考能力はほとんど未開拓である。この能力は、モデルの困難さ認識と推論の効率性の両方を反映するものであり、現実世界の応用において重要である。我々は、モデルにとって単純なシステム1の問いから成る、多分野・多言語のベンチマークであるS1-Benchを提案する。28のLRMsを調査した結果、システム1の問題において精度不足と非効率が見られた。既存の効率的推論手法は、単純な問いへの汎化が不十分であるか、効率のために性能を犠牲にしていることが分かった。さらに調査を進めると、LRMsは低い自信を伴う早期の困難さ認識を示し、問題の難易度が隠れ状態に暗黙的に符号化されていることが明らかになった。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

大規模推論モデルの「システム1的思考」能力を探る

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」