Extended NYT Connectionsベンチマークのスコア:MiniMax-M2.7が34.4、Gemma 4 31Bが30.1、Arcee Trinity Large Thinkingが29.5

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • Extended NYT Connectionsベンチマークのスコアが共有され、MiniMax-M2.7が34.4、Gemma 4 31Bが30.1、Arcee Trinity Large Thinkingが29.5と報告されています。
  • ベンチマーク結果は、特定の推論・パズル系課題におけるモデルの相対性能を比較するための材料として提示されています。
  • 参照先としてnyt-connectionsのGitHubリポジトリがリンクされており、追試やベンチマーク運用の入口が示されています。
  • ローカルLLMの評価・選定に関心のある開発者にとって、知識や言語理解以外の能力も含む評価観点が強調されています。