Abstract
大規模言語モデル(LLMs)は標準的なベンチマークで印象的なスコアを達成する一方で、誰もが数秒で正しく答えられるはずの質問を日常的に誤答します。 BrainBenchを紹介します。これは、20の慎重に設計されたカテゴリにまたがる100問の頭の体操の問題のベンチマークで、それぞれがLLMsの特定の常識的推論の失敗モードを狙っています。 カテゴリは、暗黙の物理的制約(「レンタカーを返却場所へ歩くべきか、それとも車で行くべきか?」)から、意味的スコープのトリックやデフォルト仮定の乗っ取りにまで及びます。 私たちは、Claudeファミリーから4つ、GPTファミリーから4つの最前線モデルを、各質問につき10回の独立した実行を伴うゼロショット・プロトコルで評価します。 最良のモデルは、拡張思考を備えたClaude Opus 4.6で、正確度は80.3%にとどまります。 最悪はGPT-4oで、39.7%のスコアです。 トップ性能のモデルでも、正確さと一貫性の間に6〜16ポイントのギャップが見られ、確率的推論を示しています。 中国語でのクロスリンガル評価では、多くのモデルが2〜8ポイント低下することが示され、これらの失敗は言語特有のアーティファクトではなく推論の欠陥を反映していることが確認されます。 BrainBenchは、LLMsが表面的なヒューリスティクスを真の常識的推論の代わりに用いる場所と理由を特定する、きめ細かな診断ツールを提供します。返却形式: 「{“translated”: “翻訳されたHTML”}」




