私はLLMのベンチマークを作ったのに、それでもQwen3.5-122bの出来の良さに驚きを隠せない

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 開発者が、LLM向けに独自のベンチマークを何か月もかけて構築したことを述べる。そのベンチマークは、テキストベースの戦略ゲームを使い、モデルが大量のダメージを受けながら繰り返し計画し、生成し、取引し、適応するものになっている。
  • ベンチマークには明示的なメモリ/リフレクションのループが含まれており、各LLMが観察された結果に基づいてプロンプトを組み直し、自己批評と再適応がゲームあたり約20回行われる。
  • 著者は、AWQ 4-bit量子化で実行した際のQwen3.5-122Bの際立った性能を報告しており、その出来の良さに驚いたと述べている。
  • ベンダー間の公平性を高めるために、ベンチマークでは計算量/「推論時間」を可能な限り均等化し、異なるデフォルト実行時間を持つモデルでも、似た生成予算のもとで比較できるようにしている。
  • 投稿では、一部のモデルに対して推論や出力生成に過度に長い時間を与えることの欠点として、強引な(総当たりの)振る舞い(例:「ノイズの議会を召喚する」)への懸念にも触れている。

私はこのゲームに2か月間取り組んできました。文字通り、私の時間のほとんど全部を(アパートを出たのは3月1日が最後です)。
これはテキストベースの戦略ゲームで、LLM側の両方に対する受けるダメージ量が非常に大きいです。各LLMは小さな「国」4つを制御し、そのうち1つが主権国(最も重要)です。LLMたちは何を建設するか、何を訓練するか、何を生産するか、何を取引するか、何を発動するか、そして何が最も重要かを決定します。
ダメージシステムがあり、彼らは自分たちに与えられた損害を調べたうえで、さらに敵に与えた損害も考慮して、新しいプロンプトを自己形成します。これは、本当に彼らが自己批評できるのか、そして素早く変更/適応できるのかを測定するものです。この振り返り(リフレクション)は、ゲームごとに各LLMにつき20回以上行われます。
詳細はウェブサイトで読むことができます。詳しい対戦レポートがあります。
最後にもう一度言うと、正直なところ、ここで(AWQの4bit量子化で)使われているQwen3.5 122bがどれほど良いか、驚きで言い表せません……。ただ……WOWです。
読んでくれてありがとうございます!
https://dominionrift.ai

PS - 質問がある前に言っておくと、直近の2試合はまさに今行われていて、最終スコアはまもなく公開されます。
私はとても疲れていて、おそらく多くのポイントを見落としていると思います。たとえば、私は各LLMにだいたい60秒の推論時間を割り当てるようにしました。というのも最初は、同じ推論レベルであっても、異なるLLMベンダーだと回答を生成するのに3〜4倍、場合によっては5倍の時間がかかることに気づいたからです。最初は全員を高に設定しましたが、chatGPT5.4はターンごとに10分超かかる一方で、Opusは2分未満で、それが公平だとは思えませんでした。大きな部分は、彼らが計算量をだいたい同じにするようにする方法を見つけることでした。
数百トークン分の出力のためだけにノイズの議会を召喚するのは、インテリジェントに見えず、むしろ力任せに押し切っているように思えます。

submitted by /u/UltrMgns
[link] [comments]