AI Navigate

インサイト最新記事一覧 AI大全

広告

Extended NYT Connectionsベンチマークのスコア：MiniMax-M2.7が34.4、Gemma 4 31Bが30.1、Arcee Trinity Large Thinkingが29.5

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

Extended NYT Connectionsベンチマークのスコアが共有され、MiniMax-M2.7が34.4、Gemma 4 31Bが30.1、Arcee Trinity Large Thinkingが29.5と報告されています。
ベンチマーク結果は、特定の推論・パズル系課題におけるモデルの相対性能を比較するための材料として提示されています。
参照先としてnyt-connectionsのGitHubリポジトリがリンクされており、追試やベンチマーク運用の入口が示されています。
ローカルLLMの評価・選定に関心のある開発者にとって、知識や言語理解以外の能力も含む評価観点が強調されています。

Extended NYT Connections Benchmark scores: MiniMax-M2.7 34.4, Gemma 4 31B 30.1, Arcee Trinity Large Thinking 29.5

詳細: github.com/lechmazur/nyt-connections/

投稿者: /u/zero0_one1
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/5Dailyインサイトを見る →

関連記事

Black Hat Asia

Black Hat Asia

AI Business

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

AIエージェント時代に台頭する「FDE」、SHIFTと富士通が挑む脱人月

日経XTECH

中国AI企業が「ただ乗り蒸留」か米社が主張、安全保障リスクも

中国AI企業が「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

2026年にAIドキュメントツールがウィキに取って代わる理由

2026年にAIドキュメントツールがウィキに取って代わる理由

Dev.to

大手テック企業はAI投資と統合を加速させる一方、規制当局や企業は安全性と責任ある導入に注力している。

大手テック企業はAI投資と統合を加速させる一方、規制当局や企業は安全性と責任ある導入に注力している。

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告