多人数エージェントLLM委員会における表象の崩壊:測定と多様性を考慮したコンセンサス
arXiv cs.LG / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 同一の基盤モデルを、異なる役割プロンプトで再利用するマルチエージェントLLM「委員会」は、多数決による集約にもかかわらず、エージェントの思考過程(chain-of-thought)による理屈が過度に類似してしまう「表象の崩壊(representational collapse)」に陥ることがある。
- Qwen2.5-14Bの3エージェントを100件のGSM8K問題に適用した結果、平均のペアワイズコサイン類似度が高い(0.888)一方で、有効ランクが低い(2.17/3)ことが示され、エージェント間の多様性が低下していることが分かる。
- 本論文では、埋め込みの幾何学に基づいて多様性重みを算出する、学習不要の多様性を考慮したコンセンサス・プロトコルDALCを提案し、GSM8Kでの性能を87%まで改善する(自己一貫性は84%)。さらにトークンコストを26%削減する。
- アブレーションにより、単独での多様性重み付けよりもヒント共有が重要な場合が多いこと、プロトコルごとの試行間分散が1〜3ポイントに達し得ること、また埋め込み/エンコーダの選択によって崩壊の深刻度や下流の精度が大きく変わり得ることが示される。




