要旨: マルチエージェントの討論は、大規模言語モデル(LLM)の推論を改善することが示されている。しかし、それは計算集約的であり、質問に答える前に長い逐語記録(トランスクリプト)を生成する必要がある。そこで、この非効率を解消するために、討論構造の学習と、動的な報酬スケジューリングおよび長さのクリッピングによる内部化を組み合わせた二段階の微調整パイプラインを通じて、マルチエージェント討論を単一のLLMへ蒸留する枠組みを開発する。複数のモデルおよびベンチマークにおいて、内部化されたモデルは、最大でトークンを93%削減したにもかかわらず、明示的なマルチエージェント討論の性能と同等、またはそれを上回る。さらに、この能力のメカニズム的な基盤を解明するために、アクティベーション・ステアリングを通じて調査し、内部化によってエージェント固有の部分空間が生じることを見出す。すなわち、アクティベーション空間における解釈可能な方向が、異なるエージェントの観点に対応している。加えて、実用的な応用も示す。内部化された討論によってLLMへ悪意のあるエージェントを埋め込み、その後、負のステアリングによってそれらを抑制することで、蒸留によって有害な振る舞いが、ベースモデルに対するステアリングよりも、一般性能の低下をより小さくしながら、より容易に特定・制御できることを示す。これらの知見は、蒸留モデルにおけるマルチエージェント能力を理解するための新たな視点を提供するとともに、内部化された推論挙動を制御するための実践的な指針を与える。コードは https://github.com/johnsk95/latent_agents で利用可能
Latent Agents:内部化されたマルチエージェント対話を実現するポストトレーニング手法
arXiv cs.AI / 2026/4/29
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文は「Latent Agents」として、長いディベート用トランスクリプトを生成するために計算コストが高いマルチエージェント対話を、単一のLLMに蒸留するポストトレーニング手法を提案しています。
- 二段階の微調整パイプラインでは、ディベート構造の学習に加えて、動的な報酬スケジューリングと長さクリッピングを用いることで、明示的なマルチエージェント対話と同等、あるいはそれ以上の性能を、最大で93%少ないトークン数で達成しています。
- 活性化のステアリングによる機構的解析から、内部化によりモデルの活性化空間にエージェント固有のサブスペースが生まれ、異なるエージェントの視点に対応する解釈可能な方向性が得られることが示唆されます。
- 実用面として、悪意あるエージェントを内部化された対話を通じてLLMに埋め込み、その後ネガティブステアリングで抑制することで、有害行動をより局所化・制御しやすくし、ベースモデルへのステアリングよりも全体性能の低下を小さくできることを実証しています。
- 再現性を高め、内部化された推論挙動のさらなる検証を可能にするため、コードも公開されています。




