要約:リアルタイムのエージェンティックな相互作用の追求は、自己回帰型バックボーンの代替として拡散ベースの大規模言語モデル(dLLM)への関心を後押しし、逐次的なレイテンシのボトルネックを突破できると期待されている。だが、そのような効率向上は本当に有効なエージェンティック行動につながるのだろうか。本研究では、dLLM(例:LLaDA、Dream)を2つの異なるエージェンティック・パラダイムにわたって包括的に評価する。すなわち、(1) 体(Embodied)エージェント(長期ホライゾンの計画を必要とする)と、(2) ツール呼び出し(Tool-Calling)エージェント(正確なフォーマットを必要とする)である。効率至上の宣伝とは裏腹に、Agentboard と BFCL における我々の結果は「苦い教訓」を示している:現在の dLLM は信頼できるエージェンティック・バックボーンとして機能できず、体系的な失敗に至ることが頻繁にある。 (1) 体を備えた設定(Embodied)では、dLLM は繰り返し試行を行い、時間的フィードバックの下で分岐できない。 (2) ツール呼び出し設定(Tool-Calling)では、dLLM は拡散ノイズ下で記号的な精度(例:厳密な JSON スキーマ)を維持できない。エージェンティックなワークフローにおける dLLM の潜在力を評価するために、dLLM をプラグアンドプレイの認知コアとして統合するマルチエージェント評価フレームワーク DiffuAgent を提案する。我々の分析によれば、dLLM は因果に依存しない役割(例:記憶の要約やツール選択)では有効である一方で、エージェンティック・タスクとして実行可能にするには、デノイジング過程に因果的で、正確かつ論理的に裏付けられた推論メカニズムを組み込む必要がある。
拡散型言語モデルのエージェント的ワークフローにおける苦い教訓:現実の総点検
arXiv cs.CL / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散ベースのLLM(dLLM)を実時間のエージェント的対話のための代替候補として評価し、逐次処理に伴う遅延ボトルネックの解消を目指しています。
- 2つのエージェント的パラダイム(長期計画を要するEmbodied Agentsと、厳密な出力フォーマットを要するTool-Calling Agents)にわたって検証した結果、dLLMは信頼性の低い形で体系的に失敗しがちです。
- 身体化(Embodied)の設定では、時間的フィードバックのもとで分岐(ブランチ)できず、長期的に安定した行動ではなく繰り返しの失敗を招きます。
- ツール呼び出し(Tool-Calling)の設定では、拡散ノイズの影響で、厳密なJSONスキーマなどの記号的な精度を維持できません。
- 著者らは、dLLMをプラグアンドプレイの認知コアとして組み込む多主体評価フレームワークDiffuAgentを提案し、因果的で精密かつ論理的に裏付けられた推論を「ノイズ除去(denoising)」過程に統合する必要があると結論づけています。




