私はこのゲームに2か月間取り組んできました。文字通り、私の時間のほとんど全部を(アパートを出たのは3月1日が最後です)。
これはテキストベースの戦略ゲームで、LLM側の両方に対する受けるダメージ量が非常に大きいです。各LLMは小さな「国」4つを制御し、そのうち1つが主権国(最も重要)です。LLMたちは何を建設するか、何を訓練するか、何を生産するか、何を取引するか、何を発動するか、そして何が最も重要かを決定します。
ダメージシステムがあり、彼らは自分たちに与えられた損害を調べたうえで、さらに敵に与えた損害も考慮して、新しいプロンプトを自己形成します。これは、本当に彼らが自己批評できるのか、そして素早く変更/適応できるのかを測定するものです。この振り返り(リフレクション)は、ゲームごとに各LLMにつき20回以上行われます。
詳細はウェブサイトで読むことができます。詳しい対戦レポートがあります。
最後にもう一度言うと、正直なところ、ここで(AWQの4bit量子化で)使われているQwen3.5 122bがどれほど良いか、驚きで言い表せません……。ただ……WOWです。
読んでくれてありがとうございます!
https://dominionrift.ai
PS - 質問がある前に言っておくと、直近の2試合はまさに今行われていて、最終スコアはまもなく公開されます。
私はとても疲れていて、おそらく多くのポイントを見落としていると思います。たとえば、私は各LLMにだいたい60秒の推論時間を割り当てるようにしました。というのも最初は、同じ推論レベルであっても、異なるLLMベンダーだと回答を生成するのに3〜4倍、場合によっては5倍の時間がかかることに気づいたからです。最初は全員を高に設定しましたが、chatGPT5.4はターンごとに10分超かかる一方で、Opusは2分未満で、それが公平だとは思えませんでした。大きな部分は、彼らが計算量をだいたい同じにするようにする方法を見つけることでした。
数百トークン分の出力のためだけにノイズの議会を召喚するのは、インテリジェントに見えず、むしろ力任せに押し切っているように思えます。
[link] [comments]