MythosがSWE-benchを93.9%で一掃した。いよいよ“ソロ巨大企業”の時代が来た

Reddit r/artificial / 2026/4/8

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • MythosはSWE-bench Verifiedで93.9%を達成したと報じられており、Opus 4.6の80.8%を大きく上回っている。さらにSWE-bench Proでも、53.4%に対して77.8%とリードしている。
  • この記事では、MythosのSWE-bench Proスコアが自律コーディング能力の約25%の向上を示していると強調されており、信頼性の高いエンドツーエンドのソフトウェア作業に向けた大きな前進だとしている。
  • 「Project Glasswing」と噂される取り組みが、より深いアーキテクチャ理解を提供すると主張されており、モデルがプロンプトを、摩擦の少ない形でデプロイされた製品へと変換できることを示唆している。
  • この記事はこれを、完全に自律し、ラップトップ主導の開発が現実的になり得るという初期の兆候として位置づけており、個人がプロダクション品質のソフトウェアを出荷できる「ソロ巨大企業」時代を後押ししている。
  • 最後に、Mythosの能力が広く利用可能になった場合、読者なら最初に何を作るのかを問うて締めくくっている。

Mythos の新しい SWE-bench の数値が早くも公開され、現在のベストとの差が恐ろしいほど大きいです。

​SWE-bench Verified:

​Mythos: 93.9%

​Opus 4.6: 80.8%

​SWE-bench Pro:

​Mythos: 77.8%

​Opus 4.6: 53.4%

​この Pro スコアは、自律的なコーディングにおける約25%の飛躍です。さらに、Project Glasswing が深いアーキテクチャ理解をもたらすのではないかという噂を加えると、プロンプトと完全にデプロイされたプロダクトの間にある障壁は、基本的に消えています。

​Mythos がリリースされたら、あなたが何を作れるのか想像してみてください。

​必要なのはノートパソコンとアイデアだけです。最初に何を作りますか?

投稿者: /u/Double_Security6824
[リンク] [コメント]