米Anthropic(アンソロピック)が発表した新しい大規模言語モデル(LLM)の「Claude Mythos(クロード・ミュトス)」が注目を集めている。汎用的なLLMとして高い性能を持ちつつ、ソフトウエアの脆弱性を発見する能力が突出しているからだ。このためアンソロピックはMythosを一般公開せず、プレビュー版を限られた企業だけに提供するという。
米OpenAI(オープンAI)の最新LLMは「GPT-5.4」である。MythosとGPT-5.4のどちらが高性能か気になる人は多いだろう。
そこで「本人」に聞いてみることにした。私は対話型AIサービス「ChatGPT」で有料版の「Plus」を契約しており、「GPT-5.4 Thinking」というモデルを利用している。課題に応じてより深く推論できるモデルだ。「思考の労力」の項目も高めに設定している。回答までに長くて数分程度の時間がかかるが、代わりに回答の正確性が増すことを期待できる。
この状態でChatGPTに「MythosとGPT-5.4 Thinkingの性能は拮抗しているか。客観的なデータで比較して」と依頼してみた。
AIのいいところは、こうした質問に対しても感情や利害とは関係なく答えてくれるところだ。人間であれば「あなたとあの人のどちらが優れているかを教えて」といった質問に客観的に答えられる人は少ない。人間には自分に対する欲目が必ずあるからだ。欲目に従って自分を過大評価してしまうか、逆に欲目の存在を意識しすぎて過小評価するか、どちらかになりがちだ。
さてChatGPTはどう答えたのか。「公開データだけで比べると、拮抗しているというよりも、Mythosが一段上に見える」がその回答である。ただし、同一条件で結果を比較したわけではなく、各社が別々に公表したベンチマークテストの結果を突き合わせたという。「公開値ベースではMythos優勢という言い方が適切」とのことだった。
なお、これはあくまで公開されているベンチマークテストの結果を整理したものであり、オープンAIとしての公式な比較評価ではない点に注意が必要だ。
共通するベンチマークテスト結果では「SWE-bench Pro系列はMythos77.8%に対してGPT-5.4 Thinkingが57.7%、Terminal-Bench 2.0は82.0%対75.1%」など、7種類のベンチマークに含まれる計8項目で、すべてMythosが上回っていたという。
次のページ
どちらも同じ最上位グループにいるこの記事は会員登録で続きをご覧いただけます





