Extended NYT Connections Benchmark scores: MiniMax-M2.7 34.4, Gemma 4 31B 30.1, Arcee Trinity Large Thinking 29.5

Reddit r/LocalLLaMA / 4/5/2026

💬 OpinionSignals & Early TrendsModels & Research

Key Points

  • Extended NYT Connections benchmarkのスコアが共有され、MiniMax-M2.7が34.4、Gemma 4 31Bが30.1、Arcee Trinity Large Thinkingが29.5と報告されています。
  • ベンチマーク結果は、特定の推論・パズル系課題におけるモデルの相対性能比較の材料として提示されています。
  • 参照先としてnyt-connectionsのGitHubリポジトリがリンクされており、追試やベンチマーク運用の入口が示されています。
  • ローカルLLMの評価・選定に関心のある開発者にとって、知識や言語理解以外の能力も含む評価観点が強調されています。