エージェントが同じに見えるとき:ツール利用行動における蒸留による類似性の定量化

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMモデルの蒸留がツール利用エージェントに「行動の均質化」を引き起こし、推論手順や失敗モードが似通う可能性があると主張している。
  • 成功に必須な行動と、モデルの自律的な嗜好に由来する任意のパターンを切り分けるために、Response Pattern Similarity(RPS)とAction Graph Similarity(AGS)という2つの指標を提案している。
  • τ-Benchおよびτ²-Benchで、8プロバイダから18モデルをClaude Sonnet 4.5(thinking)に対して評価した結果、AGSでは同一ファミリー内の類似度がファミリーをまたぐ場合より高いことが示され、教師モデルの影響による収束が示唆された。
  • 制御された蒸留実験により、AGSが教師固有の収束と、一般的な性能向上を区別できることが裏付けられている。
  • RPSとAGSは異なる行動側面を捉える(Pearson r = 0.491)ことが示され、エージェント生態系における行動収束を追跡するためのコードも公開されている。

Abstract

モデル蒸留はLLMエージェントの急速な進歩を牽引する主要因ですが、多くの場合、行動の均質化を引き起こします。新たに登場している多くのエージェントは、ほぼ同一の推論手順と失敗モードを共有しており、ごく少数の支配的な教師モデルから蒸留された反響(distilled echoes)である可能性が示唆されます。しかし既存の指標では、タスク成功に必須な振る舞いと、モデルの自律的な嗜好を反映する非必須のパターンとを区別できません。そこで本研究では、非必須の行動パターンを切り出すための2つの補完的な指標を提案します。言語的な整合性に対する\textbf{Response Pattern Similarity (RPS)}、有向グラフとしてモデル化されたツール利用の習慣に対する\textbf{Action Graph Similarity (AGS)}です。8つのプロバイダからの18のモデルを、Claude Sonnet 4.5(thinking)に対して\tau-Benchおよび\tau^2-Benchで評価したところ、同一ファミリー内のモデル対は、異なるファミリー間のモデル対よりAGSで5.9 pp高いスコアを示しました。また、Kimi-K2(thinking)は82.6\% S_{\text{node}}と94.7\% S_{\text{dep}}に到達し、Anthropic自身のOpus 4.1を上回りました。さらに、制御された蒸留実験により、AGSが教師固有の収束と一般的な改善とを識別できることを確認しました。RPSとAGSは異なる行動の側面を捉えます(Pearson r = 0.491)。これにより、エージェント・エコシステムにおける行動収束のための補完的な診断シグナルが得られます。コードはhttps://github.com/Syuchin/AgentEcho で公開しています。