AIバトル

Reddit r/artificial / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、4つのモデル――専門特化型のGrok 4.20、Gemini 3.1 PRO、Claude Sonnet 4.6、GPT 5.3――を対象にした比較テストを報告しており、高校レベルの人文(Humanas)の15問の四択式クイズに回答させた。
  • 報告された結果によれば、GPT 5.3は誤答6問、Claude Sonnet 4.6は誤答5問、Grok 4.20は誤答4問であり、Gemini 3.1は誤答がわずか3問だった。
  • 著者は、この比較が「公正」だったのかどうかを疑問視しており、基準、問題の形式、そしてパフォーマンスの比較可能性について懸念を示している。
  • 投稿は、比較にさらに1つ競合を加えて拡張したいという関心を示しており、より包括的なベンチマークへの需要を示唆している。
  • 内容は、レベル(Humanas)の課題における相対的な性能についての議論を方向づけるのに役立つ、コミュニティによる「ミニベンチマーク」として機能している。
Batalha de IA's

Grok 4.20の専門版、Gemini 3.1 PRO、Claude Sonnet 4.6、GPT 5.3を、15問の中学レベルの人文系の選択式問題のアンケート形式でテストしました。GPTは6つの誤りがあり、Sonnetは5つの誤りでした。Grokは4つの誤りで、Geminiはわずか3つでした。これは公正な比較でしたか? もう1人の競争相手を追加してもらえますか?

によって投稿 /u/Top_Chain1980
[link] [comments]