AI Navigate

BrainBench: 大規模言語モデルにおける常識的推論のギャップを暴く

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • BrainBenchは、20カテゴリにわたる100問の頭の体操問題から成るベンチマークを導入し、大規模言語モデルにおける特定の常識的推論の失敗モードを探るよう設計されています。
  • 本研究は、Claudeの4つのバリアントとGPTの4つのバリアントを含む8つの最先端モデルを、質問ごとに10回の独立した試行を伴うゼロショット方式で評価し、Claude Opus 4.6(拡張思考を搭載)で80.3%の精度、GPT-4oで39.7%を得た。
  • 結果は、正確さと一貫性の間に6–16パーセンテージポイントのギャップを明らかにし、トップモデルにおける確率的推論挙動を示唆している。
  • 中国語でのクロスリンガル評価は2–8パーセンテージポイントの低下を示し、弱点は言語特有の問題ではなく推論欠陥に起因することを示唆している。
  • BrainBenchは、LLMsが真の常識的推論の代わりに表層的ヒューリスティックに依存している箇所を特定する、細粒度の診断ツールを提供します。

Abstract

大規模言語モデル(LLMs)は標準的なベンチマークで印象的なスコアを達成する一方で、誰もが数秒で正しく答えられるはずの質問を日常的に誤答します。 BrainBenchを紹介します。これは、20の慎重に設計されたカテゴリにまたがる100問の頭の体操の問題のベンチマークで、それぞれがLLMsの特定の常識的推論の失敗モードを狙っています。 カテゴリは、暗黙の物理的制約(「レンタカーを返却場所へ歩くべきか、それとも車で行くべきか?」)から、意味的スコープのトリックやデフォルト仮定の乗っ取りにまで及びます。 私たちは、Claudeファミリーから4つ、GPTファミリーから4つの最前線モデルを、各質問につき10回の独立した実行を伴うゼロショット・プロトコルで評価します。 最良のモデルは、拡張思考を備えたClaude Opus 4.6で、正確度は80.3%にとどまります。 最悪はGPT-4oで、39.7%のスコアです。 トップ性能のモデルでも、正確さと一貫性の間に6〜16ポイントのギャップが見られ、確率的推論を示しています。 中国語でのクロスリンガル評価では、多くのモデルが2〜8ポイント低下することが示され、これらの失敗は言語特有のアーティファクトではなく推論の欠陥を反映していることが確認されます。 BrainBenchは、LLMsが表面的なヒューリスティクスを真の常識的推論の代わりに用いる場所と理由を特定する、きめ細かな診断ツールを提供します。

返却形式: 「{“translated”: “翻訳されたHTML”}」