AIバトル

Reddit r/artificial / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者は、4つのモデル――専門特化型のGrok 4.20、Gemini 3.1 PRO、Claude Sonnet 4.6、GPT 5.3――を対象にした比較テストを報告しており、高校レベルの人文（Humanas）の15問の四択式クイズに回答させた。
報告された結果によれば、GPT 5.3は誤答6問、Claude Sonnet 4.6は誤答5問、Grok 4.20は誤答4問であり、Gemini 3.1は誤答がわずか3問だった。
著者は、この比較が「公正」だったのかどうかを疑問視しており、基準、問題の形式、そしてパフォーマンスの比較可能性について懸念を示している。
投稿は、比較にさらに1つ競合を加えて拡張したいという関心を示しており、より包括的なベンチマークへの需要を示唆している。
内容は、レベル（Humanas）の課題における相対的な性能についての議論を方向づけるのに役立つ、コミュニティによる「ミニベンチマーク」として機能している。

Grok 4.20の専門版、Gemini 3.1 PRO、Claude Sonnet 4.6、GPT 5.3を、15問の中学レベルの人文系の選択式問題のアンケート形式でテストしました。GPTは6つの誤りがあり、Sonnetは5つの誤りでした。Grokは4つの誤りで、Geminiはわずか3つでした。これは公正な比較でしたか？もう1人の競争相手を追加してもらえますか？

によって投稿 /u/Top_Chain1980
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

Publickey

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援

日経XTECH

AIバトル

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

CloudflareがAIエージェントへの最適化を目指し、全サービスに対応するCLIの開発を表明

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

半導体のレジェンド、日本に助け船 ジム・ケラー氏が設計者育成を支援

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

半導体のレジェンド、日本に助け船ジム・ケラー氏が設計者育成を支援